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Python 作为 一 种 高 级 程序 设计 语言 ， 和 凭借 其 简洁 、 易 读 及 可 扩展 性 日 渐 成 为 程序 设计 
领域 备 受 推崇 的 语言 。 同 时 ，Python 语言 的 数据 分 析 功 能 也 逐渐 为 大 众 所 认 可 。 

本 书 就 是 一 本 介绍 如 何 用 Python 进行 数据 分 析 的 学 习 指 南 。 全 书 共 12 章 ， 从 Python 
程序 库 入 门 、NumPy 数组 和 Pandas 入 门 开始 ， 陆 续 介 绍 了 数据 的 检索 、 数 据 加 工 与 存储 、 
数据 可 视 化 等 内 容 。 同 时 ， 本 书 还 介绍 了 信号 处 理 与 时 间 序 列 、 应 用 数据 库 、 分 析 文 本 数 
据 与 社交 媒体 、 预 测 性 分 析 与 机 器 学 习 、Python 生态 系统 的 外 部 环境 和 云 计算 、 性 能 优化 
及 分 析 、 并 发 性 等 内 容 。 在 本 书 的 最 后 ， 还 采用 3 个 附录 的 形式 为 读者 补充 了 一 些 重要 概 
念 、 常 用 函数 以 及 在 线 资 源 等 重要 内 容 。 

本 书 延 续 了 上 一 版 示例 丰富 、 简 单 易 懂 的 优点 ， 非 常 适合 对 Python 语言 感 兴 趣 或 者 想 
要 使 用 Python 语言 进行 数据 分 析 的 读者 参考 阅读 。 
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Armando Fandango 是 Epic 工程 咨询 集团 首席 数据 科学 家 ， 负 责 与 国防 和 政府 机 构 有 
关 的 保密 项 目 。Armando 是 一 位 技术 精湛 的 技术 人 员 ， 拥 有 全 球 创业 公司 和 大 型 公司 的 工 
作 经 历 和 高 级 管理 经 验 。 他 的 工作 涉及 金融 科技 、 证 券 交 易 所 、 银 行 、 生 物 信息 学 、 基 因 
组 学 、 广 告 技术 、 其 础 设施 、 交 通 运输 、 能 源 、 人 力 资 源 和 娱乐 等 多 个 领域 。 

Armando 在 预测 分 析 、 数 据 科 学 、 机 器 学 习 、 大 数据 、 产 品 工程 、 高 性 能 计算 和 云 基 
础 设施 等 项 目 中 工作 了 十 多 年 。 他 的 研究 兴趣 横路 机 器 学 习 、 深 度 学 习 和 科学 计算 等 领域 。 

我 要 特别 感谢 我 的 妻子 在 编写 本 书 过 程 中 给 予 我 的 支持 。 同 时 ， 我 还 要 感谢 UCF 的 
Paul Wiegand 博士 ， 他 总 是 鼓励 我 寻求 机 会 。 最 后 ， 我 非常 感谢 Packt 团队 的 Tushar, Sumeet, 
Amrita, Deepti 以 及 其 他 工作 人 员 ， 感 谢 他 们 为 本 书 的 面世 所 付出 的 巨大 努力 。 
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Joran Beasley 毕业 于 爱 达 荷 大 学 ， 获 得 了 计算 机 科学 学 士 学 位 。7 年 以 来 ， 他 
事 基 于 Python 的 桌面 应 用 程 








FLA 
序 编程 , 同时 将 其 应 用 于 监控 农业 的 大 规模 传感器 网 络 。 目 前， 
他 居住 于 爱 达 荷 州 莫斯科 市 ， 作 为 软件 工程 师 供职 于 METER 集团 。 






















































































我 要 感谢 我 的 妻子 Nicole， 当 我 把 大 量 的 时 间 倾 注 在 写作 上 的 时 候 ， 她 在 默默 地 抚养 我 
们 的 两 个 孩子 。 














Ratan Kumar 在 过 去 的 几 年 里 一 直 在 利用 各 种 语言 和 技术 从 事 软件 编程 。2013 年 以 
X, Ratan Kumar 在 Web 服务 领域 使 用 Python 语言 ， 他 发 现 无 论 是 在 个 人 项 目 还 是 专业 项 
目 方面 ，Python 都 是 最 优雅 、 最 高 效 、 最 易于 接受 的 编程 语言 之 一 。Ratan 目前 住 在 班 加 
S x 


一 个 旨 在 简化 股票 市 场 投资 的 小 型 团队 的 核心 成 员 。 
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数据 分 析 在 自然 科学 、 生 物 医学 和 社会 科学 领域 有 着 悠久 的 历史 。 随 着 数据 科学 的 发 
展 ， 数 据 分 析 也 呈现 流行 之 势 ， 几 乎 已 经 渗透 到 工业 的 方方面面 。 与 数据 科学 类 似 ， 数 据 
分 析 也 致力 于 从 数据 中 提取 有 效 信息 。 为 此 ， 我 们 需要 用 到 统计 学 、 机 器 学 习 、 信 和 号 处 理 、 
自然 语言 处 理 和 计算 机 科学 领域 中 的 各 种 技术 。 

在 第 1 章 中 ， 我 们 将 给 出 一 幅 描绘 与 数据 分 析 相 关 的 Python 软件 的 脑 图 。 首 先 要 知道 
的 是 ，Python 生态 系统 已 经 非常 完备 ， 具 有 诸如 NumPy、SciPy 和 Matplotlib 等 著名 的 程序 
包 。 当 然 ， 这 没有 什么 好 奇怪 的 ， 因 为 Python 在 1989 年 就 诞生 了 。Python 易学 、 易 用 ， 而 
且 与 其 他 程序 设计 语言 相 比 语法 简练 ,可 读 性 非常 强 ， 即 使 从 未 接触 过 Python 的 人 ， 也 可 以 
在 几 天 内 掌握 该 语言 的 基本 用 法 ， 对 熟悉 其 他 编程 语言 的 人 来 说 尤其 如 此 。 你 无 需 太 多 的 基 
础 知识 ， 就 能 顺畅 地 阅读 本 书 。 此 外 ， 关 于 Python 的 书籍 、 课 程 和 在 线 教 程 也 非常 多 。 


本 书 内 容 
























































































































































































































































第 1 章 “Python 程序 库 入 门 ” 手 把 手 地 指导 读者 正确 安装 配置 Python 和 基础 的 Python 
数值 分 析 软 件 库 。 同 时 ， 本 章 还 会 展示 如 何 通 过 NumPy 创建 一 个 小 程序 以 及 如 何 利用 
Matplotlib 来 绘制 简单 的 图 形 。 
第 2 章 “NumPy 数组 ”介绍 NumPy 和 数组 的 基础 知识 。 通 过 阅读 本 章 ， 读 者 能 够 基 
本 掌握 NumPy 数组 及 其 相关 函数 。 
第 3 Æ “Pandas ATI” HJR Pandas 的 基本 功能 ， 其 中 涉及 Pandas 的 数据 结构 与 相应 
的 操作 。 
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清洗 和 存储 方法 。 





第 4 ESSA 


第 5 章 “ 数 据 的 检索 、 加 了 








第 6 章 “ 数 据 可 视 化 ”介绍 如 何 利 用 Matplotlib 和 Pandas 
































NoSQL 数据 库 。 





第 8 章 “ 应 用 数据 库 ” 介 绍 











第 7 章 “ 信 号 处 理 与 时 间 序列 ”利用 太阳 黑子 周期 数 






































种 数据 库 和 有 关 API 的 知识 






































本 章 还 将 为 读者 展示 一 个 网 络 分 析 方 面 的 实例 。 
































Cython 等 关键 技术 来 改善 性 





相关 框架 。 
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读者 须知 
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本 和 








附录 A“ 重 要 概念 ”将 对 本 






































第 11 章 “Python 生态 系统 的 外 部 环境 和 云 计 入 
Python 编写 的 现 有 代码 。 此 外 ， 本 章 还 将 为 读者 演示 如 何在 云 中 使 月 


第 12 章 “ 性 能 优化 、 性 



































代数 ”对 线性 代数 和 统计 函数 做 了 简要 回顾 。 
[与 存储 ”介绍 如 何 获取 不 同 格式 的 数据 ， 以 及 原始 数据 的 








的 绘图 函数 来 实现 数据 的 可 视 化 。 
来 实例 讲解 时 间 序 列 和 信号 处 
里 ， 同 时 还 会 介绍 一 些 相 关 的 统计 模型 。 本 章 使 用 的 主要 工具 是 NumPy 和 SciPy。 








其 中 包括 关系 数据 库 和 















































第 9 章 “ 分 析 文 本 数据 和 社交 媒体 ”考察 基于 文本 数据 的 情感 分 析 和 主题 抽取 。 同 时 ， 


第 10 章 “ 预 测 性 分 析 与 机 器 学 习 ” 通 过 一 个 例子 来 说 明 人 工 智能 在 天 气 预 报 上 的 应 用 ， 


这 主要 借助 于 scikit-learn。 不 过 ， 有 些 机 器 学 习 算法 在 scikit-learn 中 尚未 实现 ， 所 以 有 时 

















”将 提供 各 种 实例 ,来 说 明 如 何 集成 非 
H Python. 


能 分 析 与 并 发 性 ”为 读者 介绍 通过 性 能 分 析 〈Profliing) 和 





中 的 示例 代码 可 以 在 大 部 分 3 
3.5.0 版 本 以 上 的 Python 和 pip3 软 伯 












































中 涉及 的 重要 概念 进行 简要 介绍 。 






































downloads/， 这 个 页 面 上 不 仅 提供 了 用 于 Windows 和 Mac OS X 的 安装 和 




















技巧 ,同时 还 为 读者 介绍 多 核 和 分 布 式 系统 方面 的 














岗 代 操作 系统 上 运行 ， 所 有 章节 中 的 代码 都 需要 用 到 
Fo Python 3.5.x 的 下 载 地 址 为 https://www.python.org/ 





附录 B“ 常 用 函数 ”概述 本 书 中 用 到 的 程序 库 中 的 各 种 函数 ， 以 便于 读者 查阅 。 




















对 序 ， 也 提供 了 














T Linux. UNIX fll Mac OS X 系统 的 Python 源 代 码 。 多 数 情 况 下 ， 我 们 都 得 通过 运行 以 下 








命令 来 以 管理 员 权 限 安 闪 





各 





1 本 





























要 用 到 的 Python Æ: 








$ pip3 install <some library> 


以 下 是 


除了 各 种 Python 库 之 外 ， 我 们 还 需 


通常 情况 下 ， 对 于 以 上 的 程序 化 和 软件 ， 我 们 应 该 选 


对 于 




















于 本 











numpy 
scipy 
Pandas 
Matplotlib 
ipython 
Jupyter 
notebook 
readline 
scikit-learn 
rpy2 
Quandl 
statsmodels 


feedparser 


beautifulsoup4 





Redis server 
Cassandra 
Java 8 


Graphviz 





lo 





以 上 列 出 的 某 些 软件 只 是 用 
， 请 先 检 查 该 软件 是 否 uibs 于 某 个 示例 代码 。 


a2 
AJ 





中 的 示例 的 Python 库 的 清单 。 





























e lxml e networkx 
e numexpr e theanets 
e tables e nose parameterized 
e openpyxl e pydot2 
e xlsxwriter e deap 
e xlrd e JPypel 
e pony e gprof2dot 
e dataset e line profiler 
e pymongo e cython 
e redis e cytoolz 
e python3-memcache e joblib 
e cassandra-driver e bottleneck 
e sglalchemy e jug 
e nltk e mpi4py 
需要 以 下 软件 
e Octave e Boost 
e R e gfortran 
e SWIG e MPI 
e PCRE 
j 最 新 版 本 。 
某 个 示例 ， 因 此 在 安装 之 


通过 pip 安装 的 Python 程序 包 








> ERIA P Br: 


$ pip3 uninstall «some library» 


4 Né 


ul 


目标 读者 

















本 书 的 目标 读者 是 对 Python 和 数学 有 基本 了 解 ， 并 且 想 进一步 学 习 如 何 利 用 Python 
软件 进行 数据 分 析 的 朋友 。 我 们 力争 让 本 书简 单 易 懂 ， 但 无 法 保证 所 有 主题 都 面面俱到 。 
如 果 需 要 , 读者 可 以 经 由 Khan Academy、Coursera 之 类 的 在 线 资 源 来 复习 自己 的 数学 知识 。 

下 列 Packt 出 版 社 的 书籍 是 推荐 给 读者 的 进 阶 读 物 。 
































































































































e Building Machine Learning Systems with Python, Willi Richert and Luis Pedro Coelho 
(2013) 


e Learning Cython Programming, Philip Herron (2013) 
e Learning NumPy Array, Ivan Idris (2014) 


e [Learning scikit-learn: Machine Learning in Python, Raúl Garreta and Guillermo Moncecchi 
(2013) 


e Learning SciPy for Numerical and Scientific Computing, Francisco J. Blanco-Silva (2013) 
e Matplotlib for Python Developers, Sandro Tosi (2009) 

e NumPy Beginner's Guide - Second Edition, Ivan Idris (2013) 

e NumPy Cookbook, Ivan Idris (2012) 

e Parallel Programming with Python, Jan Palach (2014) 

e Python Data Visualization Cookbook, Igor Milovanović (2013) 

e Python for Finance, Yuxing Yan (2014) 


e Python Text Processing with NLTK 2.0 Cookbook, Jacob Perkins (2010) 


排版 约定 








本 书 中 ， 不 同类 型 的 信息 会 采用 不 同 的 排版 样式 ， 以 示 区 别 。 下 面 针对 各 种 排版 样式 
及 其 含义 进行 举例 说 明 。 

文本 、 数 据 库 表 名 、 文 件 夹 名 、 文 件 名 、 文 件 扩展 名 和 路 径 名 、 伪 URL、 用 户 输入 和 
E 特 句柄 (Twitter handles) 中 出 现 的 代码 文字 ， 会 显示 :“ 如 果 您 的 当前 登录 账户 没有 足 
















































































够 权限 的 话 ， 则 需要 在 这 条 命令 前 面 加 上 sudo。” 
代码 段 显示 格式 如 下 。 








def pythonsum (n): 
a = list (range (n)) 
b = list (range (n)) 


emi 


for i in range(len(a)): 
a[i] = i ** 2 
bui] cm zu wxe3 
c.append(a[i] + b[i]) 


return Cc 





所 有 的 命令 行 输入 或 者 输出 内 容 会 显示 为 如 下 格式 。 


$ pip3 install numpy scipy pandas matplotlib jupyter notebook 


[i 警告 或 者 重要 的 提示 在 此 显示 ， 
[Q 小 技巧 在 此 显示 。 


SR? Æ 
资源 与 支持 
本 书 由 异步 社区 出 品 ， 社 区 Chttps://www.epubit.com/) 为 您 提供 相关 资源 和 后 续 服 务 。 


配套 资源 
本 书 提供 如 下 资源 : 
@ 本 书 源 代码 ; 
e 书 中 彩 图 文件 。 
要 获得 以 上 配套 资源 ， 请 在 异步 社区 本 书页 面 中 点 击 医 三 写 国 ， 跳 转 到 下 载 界面 ， 按 提示 进 
行 操作 即 可 。 注 意 : 为 保证 购书 读者 的 权益 ， 该 操作 会 给 出 相关 提示 ， 要 求 答 入 提取 码 进行 验证 。 
如 果 您 是 教师 ， 希 望 获得 教学 配套 资源 ， 请 在 社区 本 书页 面 中 直接 联系 本 书 的 责任 编辑 。 


提交 勘误 
作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 朴 漏 。 欢 迎 您 将 发 现 
的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 
当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 点 击 “ 提 交 勘 误 ”， 输 
入 勘误 信息 ， 单 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 
接受 后 ， 您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 





















































































































































































































































与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 
如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 明 本 书 书 
名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 
















































































如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 校 等 工作 ， 可 以 
发 邮件 给 我 们 ; 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提交 投稿 (直接 访问 
www.epubit.com/selfpublish/submission 即 可 )。 

如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 书 ， 也 可 
以 发 邮件 给 我 们 。 

如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 包 括 对 图 书 全 部 
或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 一 举动 是 
对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 



































































































































关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 技术 图 书 
和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 年 8 月 ， 提 供 大 量 精 
品 IT 技术 图 书 和 电子 书 ， 以 及 高 品质 技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https://www.epubit.com. 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 YT. 专业 图 书 的 品牌 ， 依 托 于 人 民 
邮电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 , 相关 图 书 在 封面 上 印 有 异步 图 
书 的 LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 
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欢迎 来 到 Python 数据 分 析 的 世界 ! 














0 10 
Python [] 0000 





如 今 , Python 已 成 为 数据 分 析 和 数据 科学 事实 上 的 














标准 语言 和 标准 平台 之 一 。 我 们 将 为 读者 展示 一 张 思 维 导 图 ， 图 1-1 中 将 给 出 Python 生态 








系统 为 数据 分 析 师 和 数据 科学 家 提供 的 各 种 程序 库 。NumPy、SciPy、Pandas 和 Matplotlib E 
同 构成 了 Python 数据 分 析 的 基础 ， 当 前 它们 已 经 成 为 SciPy Stack 1.0 的 组 成 部 分 。 在 本 






































章 中 ， 我 们 不 仅 会 学 习 如 何 安装 SciPy Stack 1.0 和 Jupyter Notebook， 还 将 编写 一 些 简单 的 








数据 分 析 代 码 ， 为 后 面 的 学 习 做 好 热身 。 
下 面 是 Python 生态 系统 为 数据 分 析 师 和 数据 科学 家 提供 的 常用 程序 库 。 
































。 NumPy: 这 是 一 个 通用 程序 库 
处 理 这 些 数 组 的 函数 。 














e SciPy: 这 是 Python 的 科学 计算 库 ， 对 NumPy 的 功能 进行 了 大 量 扩充 ， 同 时 也 有 


部 分 功能 是 重合 的 。Numpy 和 











e Pandas: 这 是 一 个 用 于 数据 处 理 的 程序 库 ， 不 仅 提供 了 丰富 的 数据 结构 ， 同 时 为 处 



























































， 不 仅 支持 常用 的 数值 数组 ， 同 时 提供 了 用 于 高 效 























SciPy 曾经 共享 基础 代码 ， 后 来 分 道 扬 久 了。 










































































理 数据 表 和 时 间 序 列 提 供 了 相应 的 函数 。 



































e Matplotlib: 这 是 一 个 2D £2 


前 ，Matplotlib 已 经 并 入 SciPy 














库 ， 在 绘制 图 形 和 图 像 方面 提供 了 良好 的 支持 。 当 
中 并 支持 NumPy。 

















。 IPython: 这 个 库 为 Python 提供 














了 强大 的 交互 式 Shell， 也 为 Jupyter 提供 了 内 核 ， 




















同时 还 支持 交互 式 数 据 可 视 化 功能 。 我 们 将 在 本 章 稍 后 介绍 IPython shell. 
。 Jupyter Notebook: 它 提供 了 一 个 基于 Web 的 交互 式 shell, 可 以 创建 和 共享 支持 可 














实时 代码 和 可 视 化 的 文档 。Jup 

































































yter Notebook 通过 IPython 提供 的 内 核 支 持 多 个 版 











本 的 Python。 本 章 稍 后 将 会 为 读者 进一步 介绍 Jupyter Notebook. 
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对 于 本 书 而 言 ， 当 需要 安装 软件 时 ， 我 们 会 在 恰当 的 时 机 给 出 相应 的 安装 说 明 。 在 安 
装 软件 的 过 程 中 遇 到 困难 或 者 不 能 断定 最 佳 方案 时 , 读者 可 以 参考 图 1-1, 这 里 提供 了 寻找 


1 











解决 问题 所 需 辅助 信息 的 指南 。 























机 器 学 习 


scikit-learn 
| statsmodels 
| pylearn2 
| NuPIC 
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PyBrain 








Python 数据 分 析 


MapReduce | 
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Hadoop /_mrjob 
\ pyhadoop 
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PySpark 
Spark | spark-sklearn. 








X. pyspark-pandas 
. mapreduce JobX | 
mrs-mapreduce 


pymapreduce 








numpy 
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ggplot 
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Amazon / 
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Python Systems 
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本 章 将 涉及 以 下 主题 。 

。 安装 Python 3 

。 将 IPython 用 作 shell 
。 阅读 手册 页 


e Jupyter Notebook 





。 NumPy 数组 

。 一 个 简单 的 应 用 

。 何 处 寻找 帮助 和 参考 资料 
e 列 出 Python 库 中 的 模块 
。 利用 matplotlib 可 视 化 数据 








1.1 安装 Python 3 

















1.1 安装 Python 3 3 





本 书 所 用 软件 都 是 基于 Python 3 的 ， 所 以 必须 首先 安装 Python 3。 不 过 ， 对 于 某 些 操 
作 系 统 而 言 ，Python 3 是 默认 安装 的 。Python 具有 多 种 实现 ， 其 中 包括 具有 商业 版 权 的 实 
现 和 发 行 版 。 在 本 书 中 ， 我 们 只 关注 标准 Python 实现 ， 因 为 它 与 NumPy 完全 兼容 。 





























提示 





















































读者 可 以 从 https://www.python.org/download/ 页 面 下 载 
Python 3.5.x。 在 这 个 网 站 上 , 我 们 可 以 找到 为 Windows 

D 和 Mac OS X 系统 开发 的 安装 程序 ， 以 及 为 Linux. 
UNIX 和 Mac OS X 系统 提供 的 源码 包 。 我 们 可 以 从 
https://docs.python.org/3/using/index.html 上 找到 在 各 种 
操作 系统 上 安装 和 使 用 Python 的 相关 说 明 。 








本 章 需 要 安装 的 软件 ， 在 Windows、 各 




















! Linux 发 行 版 本 和 Mac OS X 系统 上 都 有 相 


















































应 的 二 进 制 安装 程序 。 当 然 , 如 果 读 者 愿意 ， 也 可 以 使 用 相应 的 源 代 码 发 行 包 。 对 于 Python, 

















要 求 其 版 本 为 3.5.x 或 更 高 。Python 2.7 版 本 的 支 





年 ， 之 后 ， 我 们 不 得 不 迁移 到 Python 3. 
1.1.1 ”安装 数据 分 析 程 序 库 








持 与 维护 工作 已 经 从 2015 年 延续 至 2020 











下 面 开始 介绍 如 何在 Windows, Linux 和 Mac OS X 上 安装 和 设置 NumPy, SciPy, Pandas, 























Matplotlib、IPython 和 Jupyter Notebook. P IRI2KTEZ 


























了 解 一 下 这 个 过 程 。 在 本 书 中 ， 我 们 将 

















使 用 pip3 来 安装 这 些 库 。 因 为 从 3.4 版 本 起 ，pip3 已 经 默认 包含 在 Python 的 安装 程序 中 了 。 
1.1.2 Linux 平台 或 Mac OS X 平台 














为 了 安装 这 些 基 础 的 程序 库 ， 可 以 运行 











以 下 命令 
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$ pip3 install numpy scipy pandas matplotlib jupyter notebook 




















如 果 当 前 登录 的 账户 没有 足够 权限 ， 则 需要 在 上 面 的 命令 行 前 面 添 加 sudo 


1.1.3 Windows 平台 











在 撰写 本 书 时 ， 我 们 在 Windows 10 虚拟 机 上 安装 了 以 下 软件 ， 作 为 安装 这 些 程序 库 的 
先决 条 件 。 


e Python 3.6. 





e Microsoft Visual C++ Build Tools 2015. 





























下 载 并 安装 适用 于 Windows 平台 的 、 预 编译 好 的 NumPy 和 SciPy 二 进 制 文件 。 








e 我 们 下 载 了 numpy-1.12.0 + mkl-cp36-cp36m-win amd64.whl 和 scipy-0.18.1-cp36- 
cp36m-win amd64.whl. 


。 下载 完 成 后 ， 执 行 命令 pip3 install Downloadsnumpy-1.12.0 + mkl-cp36-cp36m-win amd64.whl 
和 pip3 install Downloads scipy-0.18.1-cp36-cp36m-win amd64.whl。 
安装 上 述 软件 后 ， 为 了 安装 其 余 的 基础 程序 库 ， 可 以 运行 以 下 命令 。 





























$ pip3 install pandas matplotlib jupyter 


小 技巧 
的 使 用 这 些 命 令 安装 Jupyter 时 ， 要 先 安装 所 有 必需 的 软 
件 包 ， 如 Notebook 和 IPython. 


1.2 将 1Python 用 作 shell 














我 们 知道 ， 科 学 家 、 数 据 分 析 师 和 工程 师 经 常 需要 进行 实验 ， 而 IPython 正 是 为 实验 
而 生 的 。 对 于 IPython 提供 的 交互 式 环境 ， 明 眼 人 一 看 就 知道 它 与 MATLAB、Mathematica 
和 Maple 非常 接近 。 


下 面 是 IPython shell 的 一 些 特性 。 









































e Tab 补 全 功能 〈Tab completion)， 可 以 帮助 查找 命令 
e 历史 记录 机 制 





1.2 将 IPython 用 作 shell 


行内 编辑 

利用 %run 调用 外 部 Python 脚本 
访问 系统 命令 

访问 Python 的 调试 工具 和 分 析 工 具 












































下 面 给 出 IPython shell 的 使 用 方法 。 





中 
D 


— 




















启动 会 话 : 要 想 使 用 Python 启动 会 话 ， 需 要 在 命令 行 中 输入 以 下 指令 。 


$ ipython3 
Python 3.5.2 (default, Sep 28 2016, 18:08:09) 























Type "copyright", "credits" or "license" for more information. 

IPython 5.1.0 -- An enhanced Interactive Python. 

? -» Introduction and overview of IPython's features. 

$quickref -> Quick reference. 

Help -» Python's own help system. 

object? -> Details about 'object', use 'object??' for extra 
details. 


In [1]: quit() 


小 技巧 
退出 IPython shell 时 ， 可 以 使 用 quitO 函 数 或 者 Ctrl+D 
组 合 键 。 
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保存 会 话 : 有 时 我 们 可 能 想 要 恢复 之 前 做 过 的 实验 。 对 于 Python 来 说 ,这 很 容易 ， 
































只 要 保存 了 会 话 ， 就 可 以 供 将 来 继续 使 用 ， 有 具体 命令 如 下 。 


In [1]: $1ogstart 
Activating auto-logging. Current session state plus future 




















input saved: 

Filename : ipython log.py 

Mode : rotate 

Output logging : False 

Raw input log : False 

Timestamping : False State : active 


用 下 列 命令 可 以 关闭 记录 功能 。 
In [9]: $1ogoff 
Switching logging OFF 
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。 执行 系统 的 shell 命令 : 在 默认 情况 下 ，IPython 允许 通过 在 命令 前 面 追 加 “!” 号 来 
执行 系统 的 shell 命令 。 举 例 来 说 ， 我 们 输入 下 面 的 命令 将 会 得 到 当前 日 期 。 
In [1]: !date 


事实 上 ， 任 何 前 置 了 “1!” 
过 如 下 方法 来 存储 命令 的 输出 结果 。 


In [2]: 
In [3]: 





thedate = 
thedate 


!date 





显示 历史 上 用 过 





In [1]: 
In [2]: 
Out[2]: 4 

In [3]: $hist 
a=2+2 

a 

Shist 


a=2+2 
a 











这 在 命令 行 接 
外 ， 我 们 还 可 以 用 -g 开关 在 历史 命令 中 六 





号 的 命令 行 


都 将 发 送 给 系统 的 





shell 来 处 理 。 此 外 ， 可 以 通 














十 的 命令 ; 可 以 利用 %hist 命令 来 显示 之 前 用 过 的 命 











行 搜索 ， 例 子 如 下 。 








In [5]: $hist -g a = 2 
1:a=2+2 











在 上 面 的 过 程 中 ， 我 们 使 

















了 一 些 所 谓 的 魔力 函数 (magic functions)， 这 些 


























“%” 开 头 。 当 魔力 函数 单独 


1.3 学 习 手 册页 





JF 














当 使 用 IPython 导入 相应 的 程序 / 
使 不 知道 该 函数 的 确切 名 称 。 
剩 下 的 字符 。 下 面 以 arangeO) 函 数 为 例 ， 


这 里 给 出 两 种 翻阅 相关 信息 
调用 help 函数 : 输入 help 命 









































命令 





JH. 
我 们 可 以 先 输入 几 个 字符 ， 


的 方法 。 


令 ， 例 子 如 下 。 








(Command Line Interface, CLI) 环境 中 是 一 种 非常 普遍 的 功能 

















函数 均 以 


行 时 ， 就 可 以 省 略 前 级 “%”。 








可 以 通过 help 命令 打开 








F NumPy 函数 的 手册 页 一 一 即 











然后 














利用 Tab 键 就 可 以 自动 补 全 








说 明 如 何 查阅 与 其 有 关 的 资料 。 








(并 输入 函数 名 中 的 前 几 个 字符 ， 
时 将 出 现 一 个 函数 列表 ( 见 图 1-2)， 我 们 可 以 通 





过 方向 键 从 函数 名 列表 








再 按 Tab 键 。 这 
中 进行 选 
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择 ， 然 后 按 Enter 键 进行 确认 )， 最 后 按 Enter 键盘 ， 结 束 help 函数 的 调用 。 


























In [1]: import numpy 

In [2]: help(numpy.ar|| 
numpy.arange numpy.arctan numpy.argpartition numpy.array2string 
numpy.arccos numpy.arctan2 numpy.argsort numpy.array, equal 
numpy.arccosh numpy.arctanh numpy.argwhere numpy.array equiv 
numpy.arcsin numpy.argmax numpy.around numpy.array repr 
numpy.arcsinh numpy.argmin numpy.array numpy.array, split 

图 1-2 

















。 通过 问号 进行 查询 : 另 一 种 方法 是 在 函数 名 后 面 加 上 问号 ， 当 然 ， 前 提 条 件 是 我 们 
已 经 知道 函数 名 ， 好 处 是 不 必 输 入 help 命令 ， 例 子 如 下 。 


























In [3]: numpy.arange? 








Tr 





Tab 补 全 功能 依赖 于 readline， 所 以 务必 确保 先前 已 经 安装 了 该 软件 。 如 果 没 有 安装 ， 


可 以 使 用 pip 完成 安装 ， 有 具体 命令 如 下 。 














$ pip3 install readline 


利用 问号 ， 我 们 可 以 从 文档 字符 串 〈docstrings) 中 获取 所 需 信 息 。 


1.4 Jupyter Notebook 








Jupyter Notebook 以 前 被 称 为 Python Notebooks， 它 提供 了 一 种 以 特殊 格式 创建 和 共享 
具有 文本 、 图 表 和 Python 代码 的 网 页 的 工具 。 
很 多 时 候 ，notebook 都 是 用 于 演示 Python 软件 ， 或 者 用 作 一 款 教学 工具 。 我 们 可 以 单 
纯 使 用 Python 代码 或 者 通过 特殊 的 notebook 格式 来 导入 和 导出 notebook。 另 外 ，notebook 
既 可 以 在 本 机 上 跑 ， 也 可 以 放 到 专用 的 notebook 服务 器 上 在 线 使 用 。 某 些 云 计 算 解 决 方 
R GH Wakari 和 PiCloud) 还 文 持 在 云 中 运行 notebook。 云 计算 的 主题 将 在 第 11 章 中 加 
以 介绍 。 


为 了 使 用 Jupyter Notebook 启动 一 个 会 话 ， 读 者 可 以 使 用 如 下 命令 。 




















































































































$ jupyter-notebook 





这 时 将 启动 notebook 服务 器 并 打开 一 个 网 页 ， 显 示 该 命令 所 在 文件 夹 的 内 容 。 然 后 ， 
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你 可 以 在 Python 3 中 选择 New | Python 3 菜单 项 来 启动 一 个 新 的 notebook。 


你 也 可 以 打开 本 书 的 代码 包 中 提供 的 ch-01.ipynb。ch-01 是 一 个 notebook 文件 ， 其 中 
存放 了 本 章 中 简单 应 用 程序 的 代码 。 




















1.5 NumpPy 数组 

















安装 好 NumPy 后 ， 就 可 以 来 看 NumPy 数组 了 。 与 Python 中 的 列表 相 比 ， 进 行 数值 运 
算 时 NumPy 数组 的 效率 要 高 得 多 。 事 实 上 ，NumPy 数组 是 针对 某 些 对 象 进行 了 大 量 的 优 
化 工作 。 


完成 相同 的 运算 时 ， 与 Python 代码 相 比 ，Numpy 代码 用 到 的 显 式 循环 语句 明显 要 少 ， 
因为 NumPy 是 基于 向 量化 的 运算 。 还 记得 高 等 数学 中 标量 和 向 量 的 概念 吗 ? 例如 ， 数 字 2 
是 一 个 标量 ， 计 算 2+2 时 ， 进 行 的 是 标量 加 法 运算 。 通 过 一 组 标量 ， 我 们 可 以 构建 出 一 个 
向 量 。 用 Python 编程 的 术语 来 说 ， 我 们 得 到 了 一 个 一 维 数组 。 当 然 ， 这 个 概念 可 以 扩展 至 
更 高 的 维度 。 实 际 上 ， 针 对 两 个 数组 的 诸如 加 法 之 类 的 运算 ， 可 以 将 其 转化 为 一 组 标量 运 
$t. 使 用 纯 Python 时 , 为 了 完成 该 操作 , 可 以 使 用 循环 语句 遍历 第 一 个 数组 中 的 每 个 元 素 ， 
并 与 第 二 个 数组 中 对 应 的 元 素 相 加 。 然 而 ， 在 数学 家 眼 里 ， 这 种 方法 过 于 繁琐 。 数 学 上 ， 
可 以 将 这 两 个 向 量 的 加 法 视 为 单一 操作 。 实 际 上 ，NumpPy 数组 也 可 以 这 么 做 ， 而 且 它 用 低 
级 C 例 程 针 对 某 些 操作 进行 了 优化 处 理 ， 使 得 这 些 基本 运算 效率 大 为 提高 。 关 于 NumPy 
数组 将 在 第 2 章 中 详细 介绍 。 


1.6 一 个 简单 的 应 用 
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假设 要 对 向 量 a 和 b 进行 求 和 。 注 意 ， 这 里 “向 量 ” 的 含义 是 数学 意义 上 的 ， 即 一 
个 一 维 数组 。 在 第 4 章 中 ， 将 遇 到 一 种 表示 矩阵 的 特殊 NumPy 数组 。 向 量 a 存放 的 是 整 
Zi 0—n-1 的 2 UR. 如果 n 等 于 3, 那么 a 保存 的 是 0、1 或 4。 向 量 b 存放 的 是 整数 0~n 
的 3 xR, MAWR n 等 于 3， 那 么 向 量 b 等 于 0、1 或 者 8。 如 果 使 用 普通 的 Python fX 
码 ， 该 怎么 做 呢 ? 
在 我 们 想 出 了 一 个 解决 方案 后 ， 可 以 拿 来 与 等 价 的 NumPy 方案 进行 比较 。 
下 面 的 函数 没有 借助 NumPy， 而 是 使 用 纯 Python 来 解决 向 量 加 法 问题 。 



























































def pythonsum (n): 
a — list (range (n)) 
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b = list (range (n)) 


erm 


for i in range(len(a)): 
a[i] = ** 2 
b[i] = ** 3 
c.append(a[i] + b[i]) 


return Cc 














下 面 是 利用 NumPy 解决 向 量 加 法 问题 的 函数 。 








def numpysum(n) : 
a = numpy.arange(n) ** 2 
b = numpy.arange(n) ** 3 
C=a+Db 
return c 








注意 ，numpysum(O 无 需 使 用 for 语句 。 此 外 ， 我 们 使 用 了 来 自 NumPy 的 arangeO PR Zi. 
它 蔡 我 们 创建 了 一 个 含有 整数 0~a 的 NumPy 数组 。 这 里 的 arange() 函 数 也 是 从 NumPy 导 














入 的 ， 所 以 它 加 上 了 前 级 numpy。 






































现在 到 了 真正 有 趣 的 地 方 。 我 们 在 前 面 讲 过 ，Numpy 在 进行 数组 运算 时 ， 速 度 是 相当 





































































































元 素 值 。 下 面 来 看 使 用 Python 和 Numpy 能 否 得 到 相同 的 答案 。 
#!/usr/bin/env/python 


import sys 
from datetime import datetime 
import numpy as np 


URIEL 


This program demonstrates vector addition the Python way. 
Run the following from the command line: 





python vectorsum.py n 


Here, n is an integer that specifies the size of the vectors. 





The first vector to be added contains the squares of 0 up to n. 





The second vector contains the cubes of 0 up to n. 

















快 的 。 可 是 到 底 有 多 快 呢 ? 下 面 的 程序 代码 将 为 我 们 展示 numpysumO fll pythonsum()3X P3 
个 函数 的 实 耗 时 间 ， 这 里 以 hs〈 微 秒 ) 为 单位 。 同 时 ， 它 还 会 显示 向 量 sum 最 后 国 


的 两 个 
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The program prints the last 2 elements of the sum and th lapsed tim 
noww 
def numpysum(n): 
a = np.arange(n) ** 2 
b = np.arange(n) ** 3 
C =a+Db 
return.c 
def pythonsum (n): 
a — list (range (n)) 
b = list (range (n)) 
Gom [] 
for i in range(len(a)): 
a[i] = i ** 2 
b[i] = i ** 3 
c.append(a[i] + b[i]) 
return. c 
size = int(sys.argv[1]) 
start = datetime.now() 
c = pythonsum(size) 
delta = datetime.now() - start 
print ("The last 2 elements of the sum", c[-2:]) 
print("PythonSum elapsed time in microseconds", delta.microseconds) 
start = datetime.now() 
c = numpysum(size) 
delta = datetime.now() - start 
print("The last 2 elements of the sum", c[-2:]) 
print("NumPySum elapsed time in microseconds", delta.microseconds) 








对 于 1000-47. 2000 个 和 4000 个 向 量 元 素 ， 程 序 的 结果 如 下 。 





$ Python3 vectorsum.py 1000 

The last 2 elements of the sum [995007996, 998001000] 
PythonSum elapsed time in microseconds 976 

The last 2 elements of the sum [995007996 998001000] 
NumPySum elapsed time in microseconds 87 

$ python3 vectorsum.py 2000 

The last 2 elements of the sum [7980015996, 7992002000] 
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PythonSum elapsed time in microseconds 1623 

The last 2 elements of the sum [7980015996 7992002000] 
NumPySum elapsed time in microseconds 143 

$ python3 vectorsum.py 4000 


The last 2 elements of the sum [63920031996, 


63968004000] 


PythonSum elapsed time in microseconds 3417 
The last 2 elements of the sum [63920031996 63968004000] 
NumPySum elapsed time in microseconds 237 














显而易见 ，NumPy 的 运行 速度 比 等 价 的 常规 Python 代码 要 快 很 多 。 有 一 件 事情 是 肯 
定 的 : 无 论 是 否 使 用 NumPy, it 
numpysum() 函 数 给 出 的 结果 不 包含 逗号 。 为 什么 会 这 样 ? SS 
的 列表 ， 而 是 一 个 NumPy 数组 。 有 关 NumPy 数组 的 更 多 内 容 ， 







































































结果 都 是 相同 的 。 但 是 结果 的 显示 形式 还 是 有 所 差别 的 ， 
， 我 们 处 理 的 不 是 Python 
将 在 第 2 章 中 详细 介绍 。 

































































1.7， 从 何 处 寻求 帮助 和 参考 资料 








表 1-1 列 出 了 在 本 章 中 讨论 过 的 Python 数据 分 析 库 的 文档 网 站 。 











描述 





NumPy 和 SciPy 





























NumPy 和 SciPy 的 主要 文档 网 站 是 http://docs.scipy.org/doc/。 通 过 该 网 站 ， 您 
可 以 浏览 NumPy 和 SciPy 程序 库 的 用 户 指南 和 参考 指南 ， 以 及 一 些 相 关 教 程 
































Pandas http://pandas.pydata.org/pandas-docs/stable/ 
Matplotlib http://matplotlib.org/contents.html 
IPython http:/Apython.readthedocs.io/en/stable/ 





Jupyter Notebook 





http://jupyter-notebook.readthedocs.io/en/latest/ 














流行 的 软件 


发 论坛 Stack Overflow 上 也 有 数 以 百 计 的 NumPy、SciPy、Pandas、 

















Matplotlib、IPython 和 Jupyter Notebook 方面 的 讨论 。 如 果 读 者 对 这 些 内 容 感 兴趣 ， 建 议 进 


一 步 学 习 。 


如 果 你 遇 到 了 比较 为 手 的 问题 ， 或 者 想 要 持续 关注 这 些 程序 库 的 开发 ; 














展 ， 可 以 订阅 





























| 


相应 的 讨论 邮寄 列表 。 订 阅 后 ， 每 天 收 到 的 数量 不 一 的 邮件 ， 开 发 者 会 积极 报告 这 些 库 的 






































开发 进展 并 热心 回答 其 中 的 问题 。 
对 于 IRC 用 户 ， 可 以 在 irec://irc.freenode.net 找到 一 个 相关 的 频道 ， 虽 然 该 频道 的 名 字 
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Ei 


是 #scipy， 但 是 这 并 不 妨碍 我 们 提问 NumPy 方面 的 问题 ， 因 为 SciPy 用 户 一 般 比 较 熟 悉 
NumPy， 毕 竟 SciPy 是 以 NumPy 为 基础 的 。 在 这 个 SciPy 频道 中 ， 通 常 有 50 多 位 成 员 保 
持 在 线 。 


1.8 查看 Python 库 中 包含 的 模块 




































































ch-01.ipynb 文件 包含 用 于 查看 NumPy、SciPy、Pandas 和 Matplotlib 库 中 的 模块 的 代码 。 
现在 ， 读 者 不 用 担心 这 些 代 码 的 含义 ， 只 要 尝试 运行 一 下 它们 就 行 了 。 您 可 以 修改 其 中 的 
代码 以 查看 其 他 库 中 的 模块 。 


1.9 通过 Matplotlib 实现 数据 的 可 视 化 



































我 们 将 在 后 面 的 章节 中 详细 介绍 数据 的 可 视 化 问题 。 现 在 ， 我 们 先 来 加 载 两 个 样本 数 
据 集 并 生成 一 些 简单 的 图 形 。 首 先 ， 我 们 使 用 以 下 命令 将 sklearn 库 安装 到 要 提供 加 载 数 据 
的 地 方 。 





















































$ pip3 install scikit-learn 














接 下 来 ， 使 用 以 下 命令 导入 数据 集 。 


from sklearn.datasets import load iris 
from sklearn.datasets import load boston 


然后 ， 导 入 Matplotlib 绘图 模块 。 








from matplotlib import pyplot as plt 
$Smatplotlib inline 








加 载 iris 数据 集 ， 显 示 数 据 集 的 相关 描述 ， 同 时 将 第 1 列 ( 莹 片 长 度 ) 作为 x 坐标 值 
将 第 2 列 〈 苯 片 宽度 ) 作为 y 坐标 值 。 




















iris = load iris() 
print(iris.DESCR) 





data-iris.data 
plt.plot(data[:,0],data[:,1],".") 


这 时 ， 将 生成 如 图 1-3 所 示 的 图 形 。 
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加 载波 士 顿 数据 身 


图 1-3 


长 ， 显 示 数 据 集 的 相关 描述 ， 同 时 将 第 3 列 《〈 非 零售 业务 的 比例 ) 作 
































为 x 坐标 值 ， 将 第 S 列 ( 一 氧化 氮 浓 度 ) 做 为 y 坐标 值 ， 图 上 的 每 个 点 用 “+” 号 表示 。 


boston = load boston() 
print (boston.DESCR) 
data-boston.data 


plt.plot(data[: 


;2],data[:,4], "*") 


最 终 得 到 的 图 形 如 图 1-4 所 示 。 
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1.10 小 结 





本 章 安装 了 以 后 要 用 到 的 NumPy、SciPy、Pandas、Matplotlib 、IPython 和 Jupyter 
Notebook 等 程序 库 ， 并 通过 一 个 向 量 加 法 程序 ， 体 验 了 NumPy 带 来 的 卓越 性 能 。 此 外 ， 
我 们 还 探讨 了 有 关 的 文档 和 在 线 资源 。 同时, 我 们 还 尝试 通过 运行 代码 来 查找 库 中 的 模块 ， 
并 加 载 了 一 些 样 本 数据 集 ， 还 使 用 Matplotlib 绘制 一 些 简 单 的 图 形 。 
第 2 章 将 揭晓 与 NumPy 有 关 的 内 容 ， 以 探索 数组 和 数据 类 型 等 基本 概念 。 








































































































加 = 
NumPy [] O 











在 前 面 我 们 已 经 尝试 了 


个 基于 SciPy 栈 中 的 基础 数据 分 析 程 序 库 的 实际 代码 。 在 本 
章 中 , 我 们 将 带领 大 家 一 起 学 习 NumPy 数组 ,熟悉 NumPy 数组 的 基础 知识 。 阅 读本 章 后 ， 






























































你 会 对 NumPy 数组 及 其 相关 函数 有 基本 了 解 。 





本 章 涉及 的 主题 如 下 。 

。 NumPy 数组 对 象 

。 创建 多 维 数组 

。 选择 NumPy 数组 元 素 
。 NumPy 数值 类 型 
。 一 维 切片 和 索引 
。 改变 阵列 形状 
。 创建 阵列 视图 和 副本 
。 ERRI 





















































。 使 用 位 置 列表 进行 索引 
。 用 布尔 值 索 引 NumPy 数组 

。 NumPy 数组 的 广播 技术 

你 可 以 在 Jupyter Notebook 中 打开 ch-02.ipynb 文件 ， 按 照 本 章 中 的 示例 进行 操作 ， 此 






























































外 也 可 以 新 建 一 个 notebook， 

















手动 输入 相应 的 代码 。 
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2.1 NumPy 数组 对 象 











NumPy 提供 了 一 个 名 为 ndarray 的 多 维 数组 对 象 。NumPy 数组 是 具有 固定 大 小 的 类 型 
化 数组 。Python 的 列表 是 异 构 的 ,因此 列表 的 元 素 可 以 包含 任何 对 象 类 型 ， 而 NumPy 数组 


























是 同 质 的 ， 只 能 存放 同一 种 类 型 的 对 象 。 数 组 由 两 部 分 组 成 ， 分 别 如 下 。 
。 存储 在 连续 的 内 存 块 中 的 实际 数据 
。 描述 实际 数据 的 元 数据 
































实际 数据 存储 在 连续 的 内 存 块 中 , 因此 当 大 型 数据 集 作为 ndarray 进行 加 载 时 , 我 们 就 












































要 看 有 没有 足够 多 的 连续 内 存 块 了 。NumPy 中 的 大 部 分 数组 方法 和 函数 都 不 会 直接 修改 实 








际 数据 ， 而 只 能 修改 元 数据 。 








在 之 前 的 章节 中 , 我 们 曾经 用 arange0 函 数 来 生成 数组 。 实际 上 ， 那 是 用 来 存放 一 组 数 














值 的 一 维 数 组 ， 这 里 的 ndarray 则 可 以 具有 一 个 以 上 的 维度 。 
NumPy 数组 的 优势 














NumPy 数组 通常 是 同 质 的 《有 一 种 特殊 的 记录 数组 类 型 ， 它 可 以 是 异 质 的 )， 即 数组 
中 的 数据 项 的 类 型 必须 一 致 。NumPy 数组 元 素 类 型 一 致 的 好 处 是 : 因为 知道 数组 元 素 的 类 
型 相同 ， 所 以 能 轻松 确定 存储 数组 所 需 空 间 的 大 小 。 同 时 ，NumPy 数组 还 能 够 运用 向 量化 




























































































此 外 ，NumPy 使 用 了 优化 过 的 CAPI， 所 以 运算 速度 格外 快 。 



































以 下 代码 展示 了 如 何 获得 数组 的 数据 类 型 。 
In: a = np.arange (5) 


In: a.dtype 
Out: dtype('int64') 


以 上 数组 的 数据 类 型 为 int64 (至少 在 作者 的 电脑 上 是 这 样 的 ), 不 过 如 



































运算 来 处 理 整 个 数组 ， 而 完成 同样 的 任务 ，Python 的 列表 则 通常 需要 借助 循环 语句 遍历 列 
表 并 对 逐个 元 素 进行 相应 的 处 理 。NumPy 数组 的 索引 方法 与 Python 类 似 ， 


下 标 从 0 开始 。 


今后 , 我们 会 经 常 利用 arange0 子 例 程 来 建立 数组 .本章 中 的 代码 片断 大 部 分 取 自 Jupyter 
Notebook 会 话 , 而且 在 这 些 对 话 中 ,NumPy 已 经 利用 import numpy as np 命令 导入 进来 了 。 








果 你 的 Python 为 
































32 位 版 本 的 话 ， 得 到 的 结果 将 是 int32。 无 论 上 面 哪 一 种 情况 ， 都 是 在 处 














里 整 型 变量 (64 位 


或 者 32 位 )。 对 于 数组 ， 除 了 要 知道 数据 类 型 外 ， 我 们 还 要 注意 其 形状 ， 这 一 点 非常 重要 。 

















在 第 1 章 中 ， 我 们 曾经 举例 说 明 向 量 (一 维 NumPy 数组 ) 的 创建 方法 。 数 学 家 会 经 常用 到 
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向 量 ， 对 我 们 来 说 ， 最 常用 的 却 是 更 高 维度 的 对 象 。 下 面 来 看 刚刚 生成 的 那个 向 量 的 形状 。 


2H, 


























In: a 

Out: array([0, 1, 2, 3, 4]) 
In: a.shape 

Qut: (5,) 











如 你 所 见 ， 该 向 量 有 5 NER, 它们 的 值 分 别 是 从 0~4。 该 数组 的 shape 属性 是 一 个 元 
就 本 例 而 言 ， 这 是 一 个 单元 素 元 组 ， 存 放 的 是 数组 在 每 一 个 维度 的 长 度 。 




















2.2 创建 多 维 数组 





时 ， 





既然 我 们 已 经 知道 创建 向 量 的 方法 ， 下 面 开始 学 习 如 何 建立 多 维 NumPy 数组 。 生 成 矩 








阵 后 ， 我 们 再 来 看 它 的 形状 ， 代 码 如 下 。 








(1) 我 们 创建 多 维 数组 ， 代 人 码 如 下 。 


In: m = np.array([np.arange(2), np.arange(2)]) 
In: m 
Out: 
array([[0, 1], 
[0, 11]) 


(2) 显示 该 数组 的 形状 的 代码 如 下 。 


In: m.shape 
Outan (25,2) 















































上 面 我 们 用 arange0 子 例 程 直接 建立 了 一 个 2X2 的 数组 ， 而 利用 array0 函 数 创建 数组 
则 需要 传递 给 它 一 个 对 象 ， 同 时 这 个 对 象 还 必须 是 数组 类 型 的 ， 如 Python 的 列表 。 在 
































上 面 的 例子 中 ,我 们 传 给 它 的 是 由 两 个 数组 组 成 的 一 个 列表 。 该 对 象 是 array0 函 数 唯 一 所 需 
的 参数 ， 而 NumPy 的 函数 往往 有 多 个 可 选 参数 ， 而 且 这 些 参数 都 带 有 预定 义 的 缺 省 选项 。 














2.3 选择 NumPy 数组 元 素 


2x2 EEEF. 








有 时 我 们 可 能 想 从 数组 中 选择 指定 的 元 素 。 如 何 做 到 这 一 点 呢 ? 我 们 不 妨 从 创建 一 个 











In: a = np.array([[1,2],([3,4]]) 
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Ini a 

Out: 

array([[1, 2 
(3, 411) 














上 面 的 矩阵 是 通过 向 array PR 230/838 — 1 HUP ZEUG. B PRETI ERE 
个 选择 矩阵 的 各 个 元 素 ， 代 码 如 下 。 别 忘 了 下 标 是 从 0 开始 的 。 




















In: a[0,0 
Out: 1 
In: a[0,1 
Out: 2 
In: a[1,0 
Out: 3 
In: a[1,1 
Out: 4 


























可 见 , 选择 数组 元 素 是 一 件 非常 简单 的 事情 。 对 于 数组 a, 我 们 只 要 通过 afm,n] 的 形式 ， 
就 能 访问 数组 内 的 元 素 ， 其 中 m I n 为 数组 元 素 的 下 标 。 数 组 元 素 的 下 标 如 图 2-1 所 示 。 


图 2-1 

















2.4 NumPy 的 数值 类 型 


Python 自身 虽然 支持 整 型 、 浮 点 型 和 复数 型 ， 但 对 于 科学 计算 来 说 ， 还 远 远 不 够 。 现 
实 中 , 我 们 仍然 需要 更 多 的 数据 类 型 来 满足 在 精度 和 存储 大 小 方面 的 各 种 不 同 要 求 。 为 此 ， 
NumPy 提供 了 更 加 丰富 的 数据 类 型 。 注 意 , NumPy 中 跟 数 学 运算 有 关 的 数据 类 型 的 名 称 都 
以 数字 结尾 。 而 这 个 数字 指示 了 该 类 型 的 变量 所 占用 的 二 进 制 位 数 。 表 2-1( 改 编 自 《NumPy 


















































































































































用 户 指南 》) 概述 了 NumPy 的 各 种 数值 类 型 。 
表 2-1 
类 型 说 明 
bool 布尔 型 〈 值 为 True BÈ False), H Ibit 
inti 其 长 度 取 决 于 平台 的 整数 〈 通 常 为 int32 或 者 int64) 
int8 字 节 类 型 〈 取 值 范围 从 -128 一 127) 
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类 型 说 明 
int16 整 型 〈 取 值 范围 -=32768 一 32767 ) 
int32 整 型 〈( 取 值 范 围 为 -231 一 23--1) 
int64 整 型 〈 取 值 范围 为 -22 一 29-1) 
uint8 无 符号 整 型 〈 取 值 范围 为 0 一 255) 
uint16 无 符号 整 型 〈 取 值 范围 为 0 一 65535 ) 
uint32 无 符号 整 型 〈 取 值 范围 为 0 一 2 -1) 
uint64 无 符号 整 型 〈 取 值 范围 为 0 一 2%-1) 
floati6 半 精 度 浮 点 型 : 符号 占用 lbit， 指 数 占 用 $bit， 尾 数 占用 10 bit 
float32 单 精度 浮 点 型 : 符号 占用 1 bit， 指 数 占 用 8 bit， 尾 数 占 用 23 bit 
float64 或 者 float 双 精 度 浮 点 型 : 符号 占用 1 bit， 指 数 占用 11 bit， 尾 数 占用 52 bit 
complex64 复数 类 型 ， 由 两 个 32 位 浮 点 数 〈 实 部 和 虚 部 ) 表示 
complex128 或 者 complex | 复数 类 型 ， 由 两 个 64 位 浮 点 数 〈 实 部 和 虚 部 ) 表示 





每 一 种 数据 类 型 都 有 相应 的 转换 函数 ， 写 法 如 下 。 


In: np.float64(42) 





Out: 42.0 
In: np.int8 (42.0) 
Out: 42 


In: np.bool(42) 
Out: True 

In: np.bool(0) 
Out: False 

In: np.bool(42.0) 
Out: True 

In: np.float(True) 


Out: 1.0 
In: np.float(False) 
Out: 0.0 























许多 函数 都 带 有 一 个 指定 数据 类 型 的 参数 ， 该 参数 通常 是 可 选 的 。 


In: np.arange(7, dtype= np.uint16) 
Out: array([0, 1, 2, 3, 4, 5, 6], dtype-uint16) 























切记 : 不 能 把 复数 类 型 转化 成 整 型 。 当 我 们 试图 进行 这 种 转换 时 ， 将 会 触发 TypeError 
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enm 





普 误 ， 就 像 下 面 这样 。 

















In: np.int(42.0 + 1.j)Traceback (most recent call last): 
Xipython-input-24-5c1cd108488d» in «module»() 

----» 1 np.int(42.0 F 1.3) 

TypeError: can't convert complex to int 























同样 ， 也 不 允许 把 复数 转化 成 浮 点 数 。 另 外 ， 复 数 的 分 量 j 是 其 虚 部 的 系数 。 不 过 ， 
允许 把 浮 点 数 转换 成 复数 ， 如 complex(1.0) 是 合法 的 。 复 数 的 实 部 和 虚 部 分 别 使 用 real ER 
数 和 imag() 函 数 提取 。 


2.4.1 数据 类 型 对 象 


数据 类 型 对 象 是 numpy.dtype 类 的 实例 。 再 强调 一 次 ， 数 组 也 有 数据 类 型 。 严 格 地 讲 ， 
NumPy 数组 中 的 每 个 元 素 都 要 具有 相同 的 数据 类 型 。 数 据 类 型 对 象 表 明了 数据 占用 的 字 节 
数 。 所 占用 字 节 的 具体 数目 一 般 存 放 在 类 dtype 的 itemsize 属性 中 。 


In: a.dtype.itemsize 
Out: 8 


2.4.2 ”字符 码 


NumPy 之 所 以 提供 字符 码 ， 是 为 了 与 其 前 身 Numeric 向 后 兼容 。 一 般 我 们 不 建议 使 用 
字符 码 ， 这 里 为 什么 又 提供 这 些 代码 呢 ? 因 为 我 们 会 在 许多 地 方 碰 到 它们 ， 但是， 编写 代 
码 时 我 们 应 当 使 用 dtype 对 象 。 表 2-2 展示 了 常见 的 一 些 数 据 类 型 及 其 相应 的 字符 码 。 





















































































































































































































































表 2-2 
类 型 字符 码 
整 型 i 
无 符号 整 型 u 
单 精度 浮 点 型 f 
双 精 度 浮 点 型 d 
布尔 型 b 
复数 型 D 
mm S 
万 国 码 Cunicode) U 
空 类 型 (Void) V 
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下 面 的 代码 将 生成 一 个 单 精度 浮 点 型 的 数组 。 


In: arange(7, dtype-'f') 
Out: array([ 0., 1., 2., 3., 4., 5., 6.], dtype-float32) 


类 似 地 ， 下 列 代码 将 创建 一 个 负数 类 型 的 数组 。 
In: arange(7, dtype-'D') 


Out: array([ 0.40.j, 1.40.j, 2.40.j, 3.+0.j, 4.40.5, 5.40.j, 
6.*0.3]) 


24.3 dtype Fx Rx 


创建 数据 类 型 时 手段 有 很 多 ， 下 面 我 们 以 浮 点 型 数据 为 例 进行 说 明 ( 以 下 代码 取 自 本 
书 代 码 包 中 的 dtypeconstructors.py 文件 )。 


。 我 们 可 以 用 Python 自 带 的 常规 浮 点 型 ， 代 码 如 下 。 



































In: np.dtype (float) 
Out: dtype('float64') 





























。 我 们 可 以 用 字符 码 规 定单 精度 浮 点 数 ， 代 码 如 下 。 














In: np.dtype('f') 
Out: dtype ('float32') 























。 我 们 可 以 用 字符 码 定义 双 精 度 浮 点 数 ， 代 码 如 下 。 





In: np.dtype('d') 
Out: dtype('float64') 























。 我 们 可 以 向 dtype 构造 函数 传递 一 个 双 字 符 码 。 其 中 ， 第 一 个 字符 表示 数据 类 型 ， 
第 二 个 字符 是 一 个 数字 ， 表 示 该 类 型 占用 的 字 节 数 (数字 2、4 和 8 分 别 对 应 16 
位 、32 位 和 64 位 浮 点 数 )。 























In: np.dtype('f8') 
Out: dtype('float64') 


我 们 可 以 通过 sctypeDictkeysO 函 数列 出 所 有 数据 类 型 的 字符 码 ， 代 码 如 下 。 


In: np.sctypeDict.keys() 
Out: dict keys(['?', 0, 'byte', 'b', 1, 'ubyte', 'B', 2, 'short', 'h', 3, 
Uushost', "Hi, bt, Dr Ln TL 530, Mntp'a ptg, *urntpt,. VBS,.-S, 

























































































Out: '«f8' 
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'"long', *L5*y-o'"Lh',a *C"Llonglong', *q', 9; "ulonglong', Ov 10; "halb" Vet; 
23, Uft. cll, 'doüble't, "'"d', 12, '*longdouble', 'g'4 13, 'ocfloat', "E', 234; 
'cdouble', 'D', 15, 'clongdouble', 'G', 16, 'O', 17, 'S', 18, 'unicode', 
UU 19, 'vord'; 5VU-.20, *"M' 21, Wmb*,22,. "boole9', '"Bool', FPL 
'floati6', 'Floatl16', 'f2', 'float32', 'Float32', 'f4', 'float64', 
'Float64', 'f8', 'floati128', 'Float128', 'f16', 'complex64', 'Complex32', 
'c8', 'complex128', 'Complex64', 'c16', 'complex256', 'Complex128', 'c32', 
'objectO', 'ObjectO', 'bytesO', 'BytesO', 'strO', 'StrO', 'void0O', 'VoidO0', 
'datetime64', 'Datetime64', 'M8', 'timedelta64', 'Timedelta64', 'm8', 
'int64', 'uint64', 'Int64', 'UInt64', 'i8', 'u8', 'int32', 'uint32', 
UInt32"^, *UInt32'j '*j4t,u04'",; untlo', "uintlo', trntl6/, "Urlntl6', 'i2'; 
'u2', 'int8', 'uint8', 'Int8', 'UInt8', 'il', 'ul', 'complex ', 'intO0', 
'uintO', 'single', 'csingle', 'singlecomplex', 'float ', 'intc', 'uintc', 
'int ', 'longfloat', 'clongfloat', 'longcomplex', 'bool ', 'unicode ', 
'object ', 'bytes ', 'str ', 'string ', 'int', 'float', 'complex', 'bool', 
'object', 'str', 'bytes', 'a']) 
2.4.4 dtype 属性 
类 dtype 提供 了 许多 有 用 的 属性 ， 如 可 以 通过 dtype 的 属性 获取 某 种 数据 类 型 对 应 的 
字符 人 码 。 
In: t = np.dtype('Float64') 
In: t.char 
Out: 'd' 
类 型 属性 相当 于 数组 元 素 对 象 的 类 型 ， 如 下 所 示 。 
In: t.type 
Out: numpy.float64 
dtype 的 属性 str 中 保存 的 是 一 个 表示 数据 类 型 的 字符 串 ， 其 中 第 一 个 字符 描述 字 
节 顺序 ， 如 果 需 要 ， 后 面 会 跟着 字符 码 和 数字 ， 用 来 表示 存储 每 个 数组 元 素 所 需 的 字 
节 数 。 这 里 , 字 节 顺序 Cendianness) 规定 了 32 位 或 64 位 字 内 部 各 个 字 节 的 存储 顺序 。 
对 于 大 端 (big-endian) 顺序 ， 先 存放 权重 最 高 的 字 节 ， 用 符号 “>” 指 出 ; 当 使 用 小 
端 (little-endian) 顺序 时 ， 则 存放 权重 最 低 的 字 节 ， 用 符号 “<” 指 出 。 下 面 以 代码 为 
例 进行 说 明 。 
Dni tlstt 
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2.5 一 维 数组 的 切片 与 索引 





一 维 NumPy 数组 的 切片 操作 与 Python 列表 的 切片 一 样 。 下 面 先 来 定义 包含 数字 0. 1. 
2，…, 8 的 一 个 数组 ， 然 后 通过 指定 下 标 3 一 7 来 选择 该 数组 的 部 分 元 素 ， 这 实际 上 就 是 提 
取 数 组 中 值 为 3 一 6 的 那些 元 素 。 



































In: a = np.arange(9) 
Try alsar] 
Out: array([3, 4, 5, 6]) 











我 们 可 以 用 下 标 选 择 元 素 ， 下 标 范 围 从 0 一 7， 而 且 下 标 每 次 递增 2， 如 下 所 示 。 











If a[pi4-2:] 
Out: array([0, 2, 4, 6]) 









































正如 使 用 Python 那样 ， 我 们 也 可 用 负 值 下 标 来 反 转 数组 。 


Tay dl 
Out: array([8, 7, 6, 5, 4, 3, 2, 1, 0]) 


2.6 处理 数组 形状 


前 面 我 们 学 习 过 reshape0 函 数 ， 实 际 上 ， 除 了 数组 形状 的 调整 外 ， 数 组 的 扩充 也 是 一 
个 经 常 碰 到 的 乏味 工作 。 比 如 ， 我 们 可 以 想象 一 下 将 多 维 数 组 转换 成 一 维 数组 时 的 情形 。 
我 们 创建 一 个 数组 b， 下 面 的 多 个 例子 都 会 用 到 它 。 





In: b = np.arange (24) .reshape (2,3,4) 


FELZ 4195 04,;-T5], 
[16, 17, 18, 19], 
[20, 21, 22, 23]] 











我 们 可 以 利用 以 下 函数 处 理 数组 的 形状 。 
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拆 解 : 可 以 用 ravel0 函 数 将 多 维 数组 变 成 一 维 数组 ， 代 码 如 下 。 





In. 5 
Out: 
arraytt[t205^ l1; 25 -3]5 

po4 5r. OX 

[8, 9, 10, 11]], 

[LI27; 012, 14,015]5 

[I607; ky Ht Oy 

[20, 21, 22, 23]1]1) 
In: b.ravel() 
Out: 
array([ 0.1, 27; By «My 542: 5654. hs 586-7 95^ OL LL, 12; 213, 
14,. 15, 16,.17,; 18,. 19, 205 21,4. 227-281) 




















flatten()3k [El 
数组 的 视图 








o 这 意味 着 ， 








In: 
Out: 
array([ O, 
14, 15, 16, 


b.flatten() 


1, 
Tu 


2, 
18, 





























元 组 指定 数组 
代码 如 下 。 





m 
In: 
Out: 
array([[ 0, 
[ 4， 
[ 8, 
[12, 
[16, 
(20, 


b.shape = (6,4) 


b 


1, 
5, 
9, 
T3; 
17, 
21, 


2, 
6, 
10, 
14, 
18, 
22, 



































MA (Flatten): flatten KHAAA 56 3 
的 是 真实 的 数组 ， 需 要 分 配 新 的 内 存 空 间 ， 而 ravel0 函 数 返 回 的 


3, 
19, 


EAR: BR reshape0 函 数 外 ， 还 可 以 用 元 组 来 轻松 定义 数组 的 





非常 贴切 ， 其 功能 与 ravel0 相 同 。 可 是 ， 


L1 


ZN 








El 
AE 





我 们 可 以 像 下 面 这 样 直 接 操 作 数 组 。 





4, 
20, 


5, 
21, 


6, 
22, 


7, 
23]) 


gu Oy EO. DT | su; 

















可 见 ， 上 述 代码 直接 改变 了 数组 的 形状 。 这 样 ， 我 们 就 得 到 了 一 个 6X4 的 数组 。 
转 置 : 在 线性 代数 中 ， 和 矩阵 的 转 置 操作 非常 常见 。 转 置 是 一 种 数据 变换 方法 ， 对 于 二 


























维 表 而 言 ， 转 置 就 意味 着 








qn 
Out: 


b.transpose() 





行 变 成 列 ， 同 时 列 变 成 行 。 转 置 也 可 以 通过 下 列 代码 完成 。 





E ——————————— Án 


pe Gy l2, T6; 20 
Oy S4. 4 75:2T 
; 10, 14, 18, 22 
5d X5; 195.23 


C ND nÍ| Oo 

EN 

- O00! 
~ 


~ 
































e 调整 大 小 : 函数 resize() 的 作用 类 似 于 reshape0， 但 是 会 改变 所 作用 的 数组 。 














In: b.resize((2,12)) 

In: b 

Out: 

array([[ 0; 1, 2,4 3; 4, 5b, 0; T7, S8; 9, 10; 1l]; 
[125 133. T45- Sn 1:67 Ty. X8, QF 207 :21;22,-29]]9 


2.0. 1 HERH 


从 深度 看 , 数组 既 可 以 横向 县 放 , 也 可 以 竖 向 车 放 。 为 此 , 可 以 使 用 vstack(). dstack() s 
hstack(). column stack()、row_stack( 和 concatenate0 等 函数 。 在 此 之 前 ， 我 们 先 要 建立 某 
些 数 组 。 











In: a = np.arange(9).reshape(3,3) 


Trsa 

Out: 

array([[0, 1, 2], 
[35 ..4;- 5]. 
[6, 7, 811) 

In: b22*4a 

Insp 

Out: 

array ([[ 0, 2, 41], 
[6, 8, 10] 


[12, 14, 16]]) 





就 像 前 面 所 说 的 ， 可 以 用 下 列 技术 来 堆放 数组 。 


。 水 平 登 如: 先 介绍 水 平 登 加 方式 ， 即 用 元 组 确定 ndarrays 数组 的 形状 ， 然 后 交 给 
hstackO 函 数 来 码 放 这 些 数 组 ， 有 具体 如 下 。 



























































In: np.hstack((a, b)) 


[ 0 
[3, 4,5, 6, 8, 10], 
LSe 45:585 12y 14, KIN 
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。 用 concatenate0 函 数 也 能 达到 同样 的 效果 ， 代 码 如 下 。 


In: np.concatenate((a, b), axis-1) 








2-2 


。 AEA: 使 用 垂直 人 车 加 方法 时 ， 先 要 构建 一 个 元 组 ， 然 后 将 元 组 交 给 vstack0) 函 
数 来 码 放 数组 ， 代 码 如 下 。 





In: np.vstack((a, b)) 


Out: 

array([[ 0, 1, 2], 
[3, A4, 5], 
[6, 7, 8], 
[ 0; 25 4T, 
[6, 8, 10], 
[12, 14, 16]]) 


当 参 数 axis 设置 为 0 时 ，concatenate0O 函 数 也 会 得 到 同样 的 效果 。 实 际 上 ， 这 是 该 参数 
的 缺 省 值 ， 代 码 如 下 。 














In: np.concatenate((a, b), axis-0) 
Out: 
array 


垂直 闭 加 过 程 的 示意 图 如 图 2-3 所 示 。 
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图 2-3 


。 REEM: 除 此 之 外 ， 还 有 一 种 深度 全 加 方法 ， 这 要 用 到 dstack() 函 数 和 一 个 元 组 。 
这 种 方法 是 沿 着 第 三 个 坐标 轴 ( 纵 向) 的 方向 来 个 加 一 把 数组 。 举 例 来 说 ,我 们 可 
以 在 一 个 图 像 数据 的 二 维 数组 上 县 加 另 一 幅 图 像 的 数据 ， 代 码 如 下 。 








In: np.dstack((a, b)) 





Out: 

array([ 0, 0], 
is 2l; 
254. 4] 
3, 6], 
4, 8], 
Sy- LOTY 
6, 12], 
7, 14], 
8, 16111) 


























e JAZ: column stackO RZ UA 717; RA ERHET EE, (An P. 


In: oned = np.arange (2) 
In: oned 
Out: array([0, 1]) 
In: twice oned = 2 * oned 
In: twice oned 
Out: array([0, 2]) 
In: np.column stack((oned, twice oned)) 
Out: 
array([[0, 0], 
(1, 211) 





用 这 种 方法 堆 登 二 维 数组 时 ， 过 程 类 似 于 hstack0) 函 数 ， 代 码 如 下 。 


In: np.column stack((a, b)) 
Out: 
array([[ 0, 1, 2, 0, 2, 4], 
[ 3, 4 

Eej T7 


~ ox 
œ Oi 
Ao 
p 

N O 
SN 
p 

4M oo 
AR 
|o 
o o0 
um 
- 
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In: np.column stack((a, b)) == np.hstack((a, b)) 
Out: 
array([[ True, True, True, True, True, True], 


[ Tru ; Tru " Tru , Tru P Tru A Tru ] 





























, 
[ True, True, True, True, True, True]], 
dtype-bool) 























是 的 ， 你 猜 得 没 错 ! 我 们 用 “==” 运 算 符 对 两 个 数组 进行 了 比 对 。 


« (T3088: 同时 ，NumPy 自然 也 有 以 行 方式 对 数组 进行 堆 革 的 函数 ， 这 个 用 于 
维 数 组 的 函数 名 为 row_stack0， 它 将 数组 作为 行 码 放 到 二 维 数 组 中 ， 人 代码 如 下 。 






























































In: np.row stack((oned, twice oned)) 
Out: 
array([[0O, 1], 

(0, 211) 





对 于 二 维 数 组 ，row_stack0 函 数 相 当 于 vstack0) 函 数 ， 代 人 码 如 下 。 


In: np.row stack((a, b)) 


Out: 
array GLi O, 1, 2], 
3i. Jp 5p, 
65 T, S81; 
0, 2, 4], 
65.085. 101; 
12, 14, 16]]) 
In: np.row stack((a,b)) == np.vstack((a, b)) 
Out: 


array([[ True, True, True], 


True, True, True], 


True, True, True], 


True, True, True], 


True, True, True 














] 
] 
] 
] 
] 
] 


, 
True, True, True]], dtype-bool) 
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我 可 以 从 纵向 、 横 向 和 深度 方向 来 拆 分 数组 , 相关 函数 有 hsplit(). vsplit(). dsplit() fl split()。 
我 们 既 可 以 把 数组 分 成 相同 形状 的 数组 ， 也 可 以 从 规定 的 位 置 开始 切取 数组 。 下 面 对 相 关 
函数 逐个 详解 。 
。 横向 拆 分 : 对 于 一 个 3X3 数组 ， 可 以 沿 着 横 轴 方向 将 其 分 解 为 3 部 分 ， 并 且 各 部 













































































分 的 大 小 和 形状 完全 一 致 ， 代 码 〈 它 取 自 本 书 代码 包 中 的 splitting.py 文件 ) 如 下 。 





In: a 
Out 
array([[0, 1, 2], 
35 245. xg 
6,- 75- 81.1) 
In: np.hsplit(a, 3) 
Out: 
[array([[0], 
3], 
6 ) , 
array([[1], 
4], 
7]1), 
array([[2], 
5], 
8] ])] 











这 相当 于 调用 了 参数 axis=1 的 split RŽ 





In: np.split(a, 3, axis-1) 
Out: 
[array ([[0], 
3], 
6 ) , 
array([[1], 
4 , 
711), 
array([[2], 
5]; 
8]1)] 























e 纵向 拆 分 : vsplit() 函 数 将 沿 着 纵 轴 方向 











In: np.vsplit(a, 3) 
Out: [array (TLO. 1, 211), array( 
array([[l6, 7, 8]1)] 




















当 参 数 axis=0 时 ，splitO 函 数 也 会 沿 着 纵 轴 


In: np.split(a, 3, axis-0) 








Out: [array([[0O, 1, 2]1), array( 
array([[l6, 7, 8]1)] 
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。 深 向 拆 分 :dsplit0 函 数 会 沿 着 深度 方向 分 解数 组 。 下 面 以 秩 为 3 的 数组 为 例 进行 说 明 。 





24, 


22, 
25; 


In: np.dsplit(c, 


Out: 
[array( 


array(I[ 


array(I[ 








LEJ 
14], 
17 
20], 
23], 
26 
































np.arange(27).reshape(3, 3, 3) 


2.60.3 NumPy 数组 的 属性 


下 面 举例 说 明 NumPy 数组 各 种 属性 的 详细 用 法 。 我 们 创建 一 个 数组 b， 以 便 后 面 的 例 






































In: b = np.arange(24).reshape(2, 12) 


array ([I[ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 
[12; l3, 14, l5; 16, l7, 18, IL9,.20,-21; 22 











除 shape 和 dtype 属性 外 ，ndarray KÆ I JS PEXRÁR €, FA 






































。 ndim 属性 存储 的 是 维度 的 数量 ， 下 面 举例 说 明 。 








In: b.ndim 
Out: 2 





。 size 属性 用 来 保存 元 素 的 数量 ， 用 法 如 下 。 





In: b.size 
Out: 24 



































e itemsize 属 











In: b.itemsize 
Out: 8 








。 如 果 想 知道 存储 整个 数组 所 需 的 字 节 数量 ,可 以 求助 于 nbytes 





正好 是 itemsize 属性 值 和 size 属性 值 之 积 。 


In: b.nbytes 


Out: 192 
In: b.size * b.itemsize 
Out: 192 

















。 属性 的 作用 与 transpose0 函 数 相同 ， 下 面 举 例 说 明 。 


In: b.resize (6,4) 


array([[ 0o, 1, 2, 3 
[ 4, DF 6, 学 
[385 9, 10, 11 
[12, 13, 14; 15 
[16, 17, 18, 19], 
[20,. 21, 22, 231]) 
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逐一 列 出 。 








wl 
3 


性 可 以 返回 数组 中 各 个 元 素 所 占用 的 字 节 数 ， 代 码 如 下 。 














生 的 值 


32 第 2 章 NumPy 数组 


QUE. 8, 42, 16, .20 
dg ue C99 dO due. Al 
2, 6, 10, 14, 18, 22], 
Sy a duy. 54.905234) 


, 





Rİ 


。 如 果 数 组 的 秩 (rank) 小 于 2， 那 么 所 得 只 是 一 个 数组 的 视图 。 














In: b.ndim 

Out T 

In: b;T 

Out: array([0, 1, 2, 3, 4]) 


。 对 于 NumPy 来 说 ， 复 数 用 j 表示 ， 下 面 举例 说 明 如 何 用 复数 生成 一 个 数组 。 


In: b 7» np.array([1.j * 1, 2.j * 3]) 
In: b 
Out: array([ 1.*1.j, 3.*2.31]) 











。 real 属性 将 返回 数组 的 实 部 ， 当 数组 元 素 全 为 实数 时 ， 就 返回 数组 本 身 ， 代 码 
如 下 。 


In: b.real 
Out: array([ 1., 3.]) 





。 imag 属性 存放 的 是 数组 的 虚 部 。 


In: b.imag 
Out: array([ 1., 2.]) 





。 如 果 数 组 含有 复数 ， 那 么 它 的 数据 类 型 将 自动 变 为 复数 类 型 ， 代 码 如 下 。 








In: b.dtype 

Out: dtype('complex128') 
In: b.dtype.str 

Out: '«c16' 





。 flat 属性 可 返回 一 个 numpy.flatiter 对 象 ， 这 是 获得 flatiter 对 象 的 唯一 方法 ， 但 我 们 
无 法 访问 flatiter 的 构造 函数 。 我 们 可 以 使 用 flat E1398 4 C ds SORS AH, 就 像 遍历 “ 胖 ” 
数组 那样 ， 代 码 如 下 。 

















In: b = np.arange (4) .reshape (2,2) 
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In: b 

Out: 

array([[0, 1], 
(2, 311) 

In: f = b.flat 

In: f 


Out: «numpy.flatiter object at 0x103013e00» 
In: for item in f: print(item) 
Out: 


C ND nÍ| Oo 





当然 ， 取 得 flatiter 对 象 的 元 素 也 不 难 ， 代 码 如 下 。 














In: b.flat[2] 
Out: 2 


此 外 ， 还 可 以 请 求 多 个 元 素 ， 代 码 如 下 。 


Ins b.oflatr[li,3]] 
Out: array([1, 3]) 














同时 ， 还 可 以 给 flat 属性 赋值 。 不 过 ， 需 要 注意 的 是 ， 这 个 值 将 会 覆盖 整个 数组 内 所 
有 元 素 的 值 ， 下 面 举例 说 明 。 


























In: b.flat = 7 

In: b 

Out: 

array([[7, 7], 
(7, 711) 


此 外 ， 还 可 以 返回 指定 的 元 素 ， 代 码 如 下 。 


In: b.flat[[1,3]] = 1 
Ini. b 
Out: 
array([[7, 1], 
(7, 111) 


























图 2-4 是 对 ndarray ! 属 性 的 一 个 小 结 。 
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2.6.4 数组 的 转换 


我 们 可 以 把 NumPy 数组 转换 成 Python 列表 ， 使 用 tolist0 函 数 即 可 。 下 面 简单 解释 一 下 。 
。 转换 成 列表 : 


In: b 

Out: array([ 1.*1.j, 3.*2.31]) 
In: b.tolist() 

Out: [(1413), (3423)] 











。 astype0 函 数 可 以 把 数组 元 素 转换 成 指定 类 型 ， 代 码 如 下 。 


In: b 
Out: array([ 1.*1.j, 3.*2.31]) 

In: b.astype (int) 
/usr/local/lib/python3.5/site-packages/ipykernel/ main .py:l: 
ComplexWarning: Casting complex values to real discards the 





imaginary part 


Dues array([1, 3]) 
In: b.astype('complex') 
Out: array([ 1.*1.j, 3.+2.j]) 
提示 
Qo 3i complex 类 型 转换 成 int AZ Bp, EKRAR. X 
外 ， 我 们 还 需要 将 数据 类 型 的 名 称 以 字符 串 的 形式 传 
递 给 astype() hZ. 


上 述 代 码 没有 显示 警告 信息 ， 因 为 这 次 使 用 的 是 正确 的 数据 类 型 。 
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2.7 创建 数组 的 视图 和 拷贝 


在 介绍 ravel0 函 数 的 示例 中 ， 我 们 提 到 了 视图 的 概念 。 不 过 ， 请 不 要 与 数据 库 中 的 视 
图 概念 混淆 。 在 NumPy 的 世界 里 ， 视 图 不 是 只 读 的 ， 因 为 你 不 可 能 守 着 基础 数据 一 动不动 。 
关键 在 于 要 知道 当前 处 理 的 是 共享 的 数组 视图 还 是 数组 数据 的 副本 。 举 例 来 说 ， 我 们 可 以 取 
数组 的 一 部 分 来 生成 视图 。 这 意味 着 ， 如 果 先 将 数组 的 茶 部 分 赋 给 一 个 变量 ， 然 后 修改 原 数 
组 中 相应 位 置 的 数据 ， 那 么 这 个 变量 的 值 也 会 随 之 变化 。 我 们 可 以 根据 SciPy 包 中 的 面部 照 
片 来 创建 数组 ， 然 后 创建 视图 ， 随 后 修改 它 。 这 里 ， 莱 娜 肖像 的 数组 是 从 SciPy 函数 获得 的 。 


(1) 获取 面部 图 片 。 







































































































































































face = scipy.misc.face() 





(2) 为 该 面部 数组 创建 副本 。 


acopy = face.copy() 


(3) 为 该 数组 创建 一 个 视图 。 





aview = face.view() 





(4) 通过 flat 迭代 器 将 视图 中 所 有 的 值 全 部 设 为 0。 


aview.flat = 0 






































最 后 ， 只 有 一 幅 图 片 可 以 看 到 图 像 ， 而 其 他 图 片 根 本 看 不 到 什么 ， 如 图 2-5 所 示 。 
































0 500 1000 














2-5 


36 第 2 章 NumPy 数组 


下 面 的 代码 很 好 地 展示 了 数组 的 视图 和 副本 的 特点 。 


import scipy.misc 





import matplotlib.pyplot as plt 


face = scipy.misc.face() 
acopy = face.copy() 
aview = face.view() 


aview.flat 0 

. subplot (221) 
.imshow (face) 
. subplot (222) 
.imshow (acopy) 
. subplot (223) 
.imshow (aview) 








Ct Ct Ct Ct Ct Ct Ct 


i 


. show () 








Z 





可 见 ， 在 程序 结束 部 分 修改 视 
变 蓝 《〈 如 果 阅 读 的 是 本 书 的 印刷 版 ， 也 可 























eu E 








示 为 黑色 )， 复 


， 同 时 改变 了 原来 的 莱 娜 数组 。 这 导致 3 副 图 片 全 部 





制 的 数组 则 没有 任何 变化 。 所 





Ket 








以 一 定 要 记 住 : 视图 不 是 只 读 的 。 


2.8 化 陈 索引 











花 式 索引 是 一 





传统 的 索引 方法 ， 它 不 使 月 




















整数 或 者 切片 。 这 里 ， 我 们 将 利用 花 式 索 


引 把 莱 娜 照片 对 角 线 上 的 值 全 部 设置 为 0， 相 当 于 沿 着 两 条 交叉 的 对 角 线 画 两 条 黑 线 。 























下 面 我 们 给 出 本 例 中 的 相应 代码 。 


import scipy.misc 


tlib. 





import matplo pyplot as plt 





face = scipy.misc.face() 

xmax = face.shape[0 

ymax = face.shape[1 
face-face[:min(xmax,ymax),:min(xmax,ymax)] 
xmax = face.shape[0 

ymax = face.shape[l1 


0 
L,-1), range (ymax) ] 


face[range(xmax), range (ymax) ] 





face[range (xmax-1,-] 
plt.imshow(face) 
plt.show() 











下 面 我 们 对 上 述 代码 ; # 说明。 
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CD 将 第 一 条 对 角 线 上 的 值 设 为 0。 
为 了 将 对 角 线 上 的 值 设 置 为 0， 我 们 需要 给 x 和 y 值 〈 直 角 坐 标 系 中 的 坐标 ) 规定 两 
个 不 同 的 范围 。 























face[range(xmax), range(ymax)] = 0 





(2) 将 男 一 条 对 角 线 上 的 值 设 为 0。 
要 设置 男 一 条 对 角 线 上 的 值 ， 需 要 规定 两 个 不 同 的 取 值 范围 ， 但 是 规则 不 变 。 




















face[range(xmax-1,-1,-1), range (ymax)] = 0 


划 掉 相片 对 角 线 后 ， 最 后 得 到 图 2-6 所 示 的 效果 。 























我 们 给 x 和 y 规定 了 不 同 的 取 值 范围 ， 这 些 范 围 用 来 索引 莱 娜 数组 。 花 式 索引 是 在 一 
个 内 部 的 NumPy 迭代 器 对 象 的 基础 上 实现 的 ， 分 3 步 完成 。 


(1) 创建 迭代 器 对 和 象 。 
(2) 将 迭代 器 对 象 绑 定 到 数组 。 
(3) 经 由 迭 代 器 访问 数组 元 素 ， 利 用 位 置 列表 进行 索引 。 
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2.9 ”基于 位 置 列表 的 索引 方法 


下 面 利 用 ix_0 函 数 将 莱 娜 照片 中 的 像素 完全 打 乱 。 注 意 ， 本 例 中 的 代码 没有 提供 注释 。 
完整 的 代码 请 参考 本 书 代 码 包 中 的 ix.py 文件 。 














import scipy.misc 
import matplotlib.pyplot as plt 
import numpy as np 


face = scipy.misc.face() 
xmax = face.shape[0] 
ymax = face.shape[l1] 


def shuffle_indices (size): 
arr = np.arange (size) 
np.random.shuffle (arr) 


return arr 


xindices = shuffle indices (xmax) 
np.testing.assert equal (len (xindices), xmax) 
yindices = shuffle indices (ymax) 
np.testing.assert equal (len (yindices), ymax) 
plt.imshow(face[np.ix (xindices, yindices)]) 
plt.show() 





这 个 函数 可 以 根据 多 个 序列 生成 一 个 网 格 ， 它 需要 一 个 一 维 序列 作为 参数 并 返回 一 个 
NumPy 数组 构成 的 元 组 。 




















In : ix ([0,1], [2,3]) 
Out: 
(array ([[0],[1]]), array([l2, 311)) 





利用 位 置 列表 索引 NumPy 数组 的 过 程 如 下 。 
(1) 打 乱 数组 的 索引 。 


我 们 用 numpy.random 子 程序 包 中 的 shuffle0 函 数 把 数组 中 的 元 素 按 随机 的 索引 号 重新 排 
列 ， 使 得 数组 产生 相应 的 变化 。 














def shuffle indices (size): 
arr = np.arange (size) 
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np.random.shuffle(arr) 


return arr 





(2) 使 用 下 面 的 代码 画 出 打 乱 后 的 索引 。 


plt.imshow( face[np.ix (xindices, yindices)]) 


(3) 莱 娜 照片 的 像素 被 完全 打 乱 后 ， 变 成 图 2-7 所 示 的 样子 。 
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图 2-7 


2.10 用 布尔 型 变量 索引 NumPy 数组 





布尔 型 索引 是 指 根据 布尔 型 数组 来 索引 元 素 的 方法 ， 属 于 花 式 索引 系列 。 因 为 布尔 型 
索引 是 花 式 索引 的 一 个 分 类 ， 所 以 它们 的 使 用 方法 基本 相同 。 


下 面 用 代码 ( 详 见 本 书 代码 包 中 的 boolean indexing.py 文件 ) 具体 演示 其 使 用 方法 。 


import scipy.misc 
import matplotlib.pyplot as plt 
import numpy as np 


face = scipy.misc.face() 
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xmax = face.shape[0] 
ymax = face.shape[l1] 
face-face[:min(xmax,ymax),:min(xmax,ymax)] 


def get indices (size): 
arr = np.arange(size) 


9. 


return arr $ 4 -- 


facel = face.copy() 

xindices - get indices(face.shape[0]) 
yindices = get indices(face.shape[1]) 
facel[xindices, yindices] = 0 
It.subplot (211) 

lt.imshow(facel) 

ace2 = face.copy() 





.Subplot (212) 
.imshow(face2) 








ct ct ct 


.show() 

















ace2[(face > face.max()/4) & (face < 3 * £ace.max()/4)] 


上 述 代码 利用 一 种 特殊 的 迭代 器 对 象 来 索引 元 素 ， 下 面 进行 简单 说 明 。 











(1) 在 对 角 线 上 画 点 。 








这 类 似 于 花 式 索引 , 不 过 这 里 选择 的 是 照片 对 角 线 上 可 以 被 4 整除 的 那些 位 置 上 的 点 。 








def get indices (size): 
arr = np.arange (size) 


9. 


return arr $ 4 == 

















然后 我 们 仅 绘 出 选 定 的 那些 点 。 





facel = face.copy() 

xindices - get indices(face.shape[0]) 
yindices = get indices(face.shape[1]) 
facel[xindices, yindices] = 0 
plt.subplot (211) 

plt.imshow(facel) 


























(2) 根据 元 素 值 的 情况 置 零 。 
选取 数组 值 介 于 最 大 值 的 L/4—3/4 的 那些 元 素 ， 将 其 设置 为 0。 









































face2[(face > face.max()/4) & (face « 3 * face.max()/4)] 
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G) 两 幅 新 照片 如 图 2-8 所 示 。 
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图 2-8 
2.11 NumPy 数组 的 广播 


当 操作 对 象 的 形状 不 一 样 时 ，NumpPy 会 尽力 进行 处 理 。 
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例如 ， 假 设 一 个 数组 要 跟 一 个 标量 相 乘 ， 这 时 标量 需要 
算 。 这 个 扩展 的 过 程 叫 作 广播 (broadcasting )。 























根据 数组 的 形状 进行 扩展 ， 
下 面 用 代码 加 以 






































thesoundarchive.com/austinpowers/smashin 


然后 才 可 以 执行 乘法 运 

说 明 。 
import scipy.io.wavfile as sw 
import matplotlib.pyplot as plt 
import urllib 
import numpy as np 
request e 
urllib.request.Request ('http://www. 
gbaby.wav') 
response - urllib.request.urlopen (request) 
print (response.info()) 
WAV FILE = 'smashingbaby.wav' 
filehandle = open(WAV FILE, 'wb') 
filehandle.write(response.read()) 
filehandle.close() 
sample rate, data = sw.read (WAV FILE) 


print("Data type", data.dtype, 
plt.subplot (2, 
plt. 


plti 


ll; 1) 
title("Original") 
plot(data) 





newdata data * 0.2 


newdata 


print("Data type", newdata.dtype, 


Sw.write("quiet.wav", 


plt.subplot(2, 1, 2) 
plt.title("Quiet") 
plt.plot(newdata)2 
plt.show() 








"Shape" 2 


sample rate, 





data. shape) 


newdata.astype (np.uint8) 


"Shape", newdata.shape) 


newdata) 











下 面 ， 我 们 将 下 载 一 个 音频 文件 ， 然 后 以 此 为 基础 ， 生 成 一 个 新 的 静音 版 本 。 





(1) 读 取 WAV 文件 。 








我 们 将 使 用 标准 的 Python 代码 来 下 载 ! 











外 影 《王牌 大 贱 谋 》(Austin Powers? "FREU 














A 

















H (Smashing, baby》 的 声音 文件 。SciPy 中 有 一 个 wavfile 子 程序 包 ， 可 以 用 来 加 载 音 


频数 据 ， 或 者 生成 WAV 格式 的 文 伯 
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F。 如 果 此 前 已 经 安装 了 SciPy， 那 么 现在 就 可 以 直接 使 


用 这 个 子 程序 包 了 。 我们 可 以 使 用 函数 read0 读 取 文 件 ， 它 返回 一 个 数据 阵列 及 采样 率 , 不 



















































































































































































过 ， 这 里 只 对 数据 本 身 感 兴趣 。 

sample rate, data = scipy.io.wavfile.read (WAV_FILE) 

(2) 绘制 原 WAV 数据 。 

这 里 ， 我 们 利用 matplotlib 绘制 原始 WAV 数据 并 用 一 个 子 图 来 显示 标题 “Original ”， 
代码 如 下 。 

plt.subplot(2, 1, 1) 

plt.title("Original") 

plt.plot (data) 

(0 新 建 一 个 数组 。 

现在 ， 我 们 要 用 NumPy 来 生成 一 段 “ 彼 静 的 ”声音 。 实 际 上 就 是 将 原 数组 的 值 乘 以 一 
个 常数 ， 从 而 得 到 一 个 新 数组 ， 因 为 这 个 新 数组 的 元 素 值 肯定 是 变 小 了 。 这 正 是 广播 技术 
的 用 武之 地 。 最 后 ， 我 们 要 确保 新 数组 与 原 数 组 的 类 型 一 致 ， 即 WAV 格式 。 

newdata = data * 0.2 

newdata = newdata.astype(np.uint8) 





(4) 写 入 一 个 WAV 文件 中 。 


我 们 将 新 数组 保存 到 一 个 新 的 WAV 文件 中 ， 代 码 如 下 。 





Scipy.io.wavfile.write("quiet.wav", 





sample rate, newdata) 


(5) 绘制 出 新 的 WAV 数据 。 
我 们 可 以 使 用 matplotlib 来 画 出 新 数组 中 的 数 所 





pit. 
plt. 
plt. 
plt. 


subplot(2, 1, 
title ("Quiet") 
plot (newdata) 


2) 


show() 





FP 的 数据 的 图 








Tr 





图 2-9 展示 了 原始 的 WAV 文 从 





W. UH PHI. 


像 以 及 数值 变 小 后 新 数组 的 图 像 。 
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2.12 小 结 





本 章 ， 我 们 学 习 了 NumPy 的 基础 知识 : 数据 类 型 和 数组 。 数 组 具有 许多 属性 ， 这 些 属 
性 都 是 用 来 描述 该 数组 的 特性 的 。 我 们 探讨 的 属性 之 一 便 是 数据 类 型 ， 实 际 上 ，NumPy 是 通 
过 一 个 成 熟 完备 的 对 象 来 表示 这 个 属性 的 。 

与 Python 标准 的 列表 相 比 ，NumPy 数组 使 用 的 切片 和 索引 方法 更 加 高 效 。 此 外 ，NumPy 
数组 还 能 够 对 多 维度 数组 进行 处 理 。 

我 们 可 以 用 各 种 方式 改变 数组 的 形状 ， 如 堆 倒 、 重 定 斥 寸 、 重 塑 形状 以 及 拆 分 等 。 在 
本 章 中 ， 我 们 还 为 处 理 数组 的 形状 介绍 了 许多 简便 易 用 的 函数 。 

有 了 这 些 基础 知识 后 ， 从 第 4 章 开 始 ， 我 们 就 要 学 习 如 何 通过 常见 的 函数 来 分 析 数 据 
了 ， 这 将 涉及 主要 统计 函数 和 数值 函数 的 用 法 。 

我 们 鼓励 读者 阅读 "参考 文献 ”部 分 中 提 到 的 书籍 ， 以 拓展 大 家 在 NumPy 库 知 识 方面 
的 深度 和 广度 。 
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0 30 
Pandas [|] [] 























Pandas 是 一 个 流行 的 开源 Python 程序 库 ， 其 名 称 取 panel data〈 面 板 数据 ， 一 个 计量 


经 济 学 的 术语 ) 与 Python data analysis (Python 数据 分 析 ) 之 意 。 本 章 将 向 读者 介绍 pandas 
的 基本 功能 ， 其 中 包括 Pandas 的 数据 结构 与 运算 。 


Pandas 的 官方 文档 强调 ，Pandas 项 目 名 称 中 的 字母 应 该 全 部 采用 小 写 形 式 ， 同 时 还 约 
定 导 入 这 个 程序 库 时 使 用 的 语句 为 import pandas as pd。 


本 书 中 ， 我 们 将 尽 可 能 地 遵循 这 些 惯 例 。 


在 本 章 中 , 我 们 首先 安装 并 概要 介绍 Pandas， 然 后 开始 探索 Pandas 的 两 个 最 重要 的 数 
据 结构 : DataFrame 和 Series。 最 后 ， 我 们 将 学 习 如 何 对 存储 在 这 些 数据 结构 中 的 数据 进行 
类 似 SQL 这 样 的 运算 ， 还 举例 说 明 包 括 时 间 序 列 例 程 在 内 的 统计 学 工具 。 本 章 涉及 的 主题 
如 下 。 


。 Pandas 的 安装 与 概览 

e Pandas 的 数据 结构 : DataFrame 

e Pandas 的 数据 结构 : Series 

。 利用 Pandas 查询 数据 

。 利用 Pandas 的 DataFrames 进行 统计 计算 
。 利用 Pandas 的 DataFrames 聚合 数据 











出 | 
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。 DataFrames 的 连接 (joining) 与 附加 (Cappending) 操作 
e DataFrames 的 串联 (concatenating〉 操作 
。 处 理 缺 失 数据 问题 
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Pandas AT] 

















处 理 
数据 透视 表 














Pandas 的 安装 


与 概览 


对 于 Pandas 来 说 ， 最 小 的 依赖 项 集合 如 下 。 


EHZ 
pydata.org/pandas-docs/stable/install.html 1% H 
Pandas， 而 且 可 以 使 











命令 来 安装 





NumPy: 这 是 一 个 处 理 数值 数组 的 基础 软件 包 , 我 们 已 经 在 前 面 的 章节 介绍 过 














安装 方法 和 简单 用 法 。 


EI 












































python-dateutil: 这 是 








个 专门 用 来 处 理 














pytz: 这 是 

















个 处 理 时 区 问题 的 程序 库 。 








期 数据 的 程序 库 。 


















































c—— 














=y 



































以 借助 于 操作 系统 的 程序 包 管 






























































fi 


aL. 



































HEAT 








式 的 安装 程序 ， 可 以 从 Pandas 官网 下 载 。 


用 pip 程序 安装 Pandas 的 命令 如 下 。 





$ pip3 install pandas rpy2 





rpy2 是 R 的 一 个 接口 ， 因 
号 权限 不 够 ， 则 需要 在 相应 的 


就 像 在 第 1 章 的 IPython Notebook 中 看 到 那样 ， 














23 rpy 被 弃 用 ， 所 以 rpy2 是 必 不 可 少 的 。 如 果 我 们 的 月 


命令 前 面 加 上 sudo. 











序 包 。 该 程序 将 显示 与 Pandas 有 关 的 下 列 内 容 。 





。 我 们 不 

















仅 能 





























我 们 可 以 查看 Pandas 的 版 本 及 其 


N 














出 的 是 最 低 限度 的 依赖 项 ， 如 果 想 更 加 全 面 地 了 解 可 选 依赖 项 ， 请 访问 http://pandas. 
] PyPI 的 pip 或 者 easy_install 
已 经 编译 好 的 二 进 制 形 式 的 安装 程序 。 此 尹 
至 可 以 利用 源 代码 来 安装 


， 我 们 还 可 
Pandas 。 如 果 我 们 喜欢 使 


HP 


TE 


pandas version 0.19.0pandas.apipandas.compat DESCRIPTION compat Crosscompatible 
functions for Python 2 and 3. Key items to import for 2/3 


compatible code: 


* iterators: 


range(), map(), 


pandas.computationpandas.corepandas.formatspandas.indexespandas.iopandas.ms 
gpack DESCRIPTION # coding: utf-8 # flake8: noqa PACKAGE CONTENTS packer 
.unpacker version exceptions CLASSES ExtType(builtins.tuple) ExtType cl 
pandas.rpy DESCRIPTION # GH9602 # deprecate rpy to instead directly use 
rpy2 PACKAGE CONTENTS base common mass vars FILE 
/usr/local/lib/python3.5/sitepandas.sparsepandas.statspandas.testspandas. 
toolspandas.tseriespandas.types 
pandas.util 


遗憾 的 是 ， 这 里 没有 给 出 描述 Pandas 子 库 的 详细 信息 ， 好 在 子 程序 包 的 名 称 本 身 就 足 


32 Pandas 数据 结构 之 DataFrame 47 







































































以 使 人 们 对 其 有 所 了 解 。 


3.2 





Pandas 数据 结构 之 DataFrame 


Pandas 的 DataFrame 数据 结构 是 一 种 带 标签 的 二 维 对 象 ， 与 Excel 的 电子 表格 或 者 关 
系 型 数据 库 的 数据 表 非 常 相似 。 顺 便 说 一 下 ，DataFrame 的 概念 最 初 发 源 于 R 程序 语言 。 
我 们 可 以 用 下 列 方式 来 创建 DataFrame。 


下 面 以 数据 为 例 ， 来 说 明 Datarame。 注 意 ， 


所 以 我 人 

















使 用 另 一 个 DataFrame 创建 DataFrame。 
使 用 具有 二 维 形状 的 NumPy 数组 或 者 数组 的 复合 结构 来 生成 DataFrame。 


类 似 地 , 可 以 用 Pandas 的 另外 一 种 数据 结构 Series 来 创建 DataFrame。 关 于 Series， 
后 文 将 有 所 介绍 。 


DataFrame 也 可 以 从 类 似 CSV 之 类 的 文件 来 生成 。 
使 用 一 维 NumPy 数组 、 列 表 、 字 典 或 Pandas Series 之 类 的 一 维 结构 的 字典 来 生成 


DataFrame 。 









































原始 的 数据 文件 相当 大 ， 而 且 有 很 多 列 ， 
门将 使 用 编辑 后 的 仅 保留 前 9 列 的 一 个 文件 作为 蔡 代 。 这 个 文件 可 以 从 本 书 的 代 


— 


















































人 码 包 中 找到 ， 文 件 的 全 称 为 WHO _first9cols.csv。 下 面 是 该 文件 包括 标题 在 内 的 前 两 行 


内 容 。 


Country,CountryID,Continent,Adolescent fertility rate ($),Adult literacy 
rate ($),Gross national income per capita (PPP international $),Net primary 


school enrolment ratio female ($),Net primary school enrolment ratio male 


(8) 


接 下 来 ， 我 们 开始 考察 Pandas 的 DataFrame 及 其 各 种 属性 。 


df 
pri 


;,Population (in thousands) totalAfghanistan,1,1,151,28,,,,26088 



































首先 ， 将 数据 文件 载 入 DataFrame 并 显示 其 内 容 。 























m pandas.io.parsers import read csv 


— read csv("WHO first9cols.csv") 
nt("Dataframe", df) 





























XH 显示 的 是 该 DataFrame 的 摘要 信息 。 如 果 完 整 显示 的 话 会 很 长 ， 所 以 我 们 只 是 截 














这 是 
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取 了 前 面 几 行内 容 。 
199 21732.0 
200 11696.0 
201 13228.0 


[202 rows x 9 columns] 

















(2) DataFrame 有 一 个 属性 ， 以 元 组 的 形式 来 存放 DataFrame 的 形状 数据 ， 这 与 ndarray 




















非常 类 似 。 我 们 可 以 查询 一 个 DataFrame 的 行 数 ， 具 体 方 法 如 下 。 


print("Shape", df.shape) 
print("Length", len(df)) 























这 里 得 到 的 数字 与 上 一 步 的 打印 输出 一 致 。 


Shape (202, 9) 
Length 202 











(3) 下 面 我 们 通过 其 他 属性 来 考察 各 列 的 标题 与 数据 类 型 ， 具 体 如 下 。 








print ("Column Headers", df.columns) 
print ("Data types", df.dtypes) 


我 们 可 以 用 一 个 专用 的 数据 结构 来 容纳 列 标题 (column headers)» 


Column Headers Index([u'Country', u'CountryID', u'Continent', 








u'Adolescent fertility rate ($)', u'Adult literacy rate ($)', 


u'Gross national income per capita (PPP international $)', 


u'Net primary school enrolment ratio female (%)', 
u'Net primary school enrolment ratio male (%)', 
u'Population (in thousands) total'], dtype-'object' 





该 数据 类 型 的 输出 结果 如 图 3-1 所 示 。 


) 





Data types Country object 
CountryID int64 
Continent int64 
Adolescent fertility rate (%) float64 
Adult literacy rate (9) float64 
Gross national income per capita (PPP international $) float64 
Net primary school enrolment ratio female (%) float64 
Net primary school enrolment ratio male (%) float64 
Population (in thousands) total float64 




















图 3-1 输出 结果 








(4) Pandas 的 DataFrame 带 有 一 个 索引 ， 
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类 似 于 关系 型 数据 库 中 数据 表 的 主键 (primary 
我 们 既 可 以 手动 规定 ， 也 可 以 让 pandas 自动 创建 。 访 问 索 引 时 ， 使 
































key)。 对 于 这 个 索引 ， 
用 相应 的 属性 即 可 ， 具 


Print("Index", 


利用 索引 可 以 迅速 搜 











是 对 数组 的 一 种 封 
Index Int64Inde 
13,- 14, 15, 19, 
285.295. 30,. 31, 
43, 44, 45, 46, 
58, 59, 60, 61, 
T3, 74, 75, T6; 
88, 89, 90, 91, 
dtype-'int64') 





C5) 有 时 我 们 希望 遍历 DataFrame HAt 






































的 效率 可 能 会 很 低 。 更 


应 的 处 理 


E. o 





print("Values", 





注意 ， 在 输出 中 ， 
字段 引起 的 。 


Values [['Afghanistan' 1 1 .. 
'Albania' 2 2 ... 
'Algeria' 3 3 .. 


ep 








上 述 展示 的 示例 代码 取 自 本 书 代 码 包 中 的 ch-03.ipynb 文 伯 


不 过 ，pandas 的 DataFrame 提供 了 一 个 届 


"Yemen' 200 1 .. 
'Zambia' 201 3 .. 
'Zimbabwe' 202 3 .. 


体 方法 如 下 。 


df.index) 





有 查 数据 项 ， 正 如 书籍 的 索引 一 样 。 就 本 例 而 言 ， 
它 起 始 于 0， 然 后 以 1 为 单位 逐 行 递增 。 


这 个 索引 实际 上 


x([0, 
17, 
32; 
47, 
62, 
332 
92, 


1, 
18, 
33; 
48, 
63, 
78, 
93, 


2, 

19, 
34, 
49, 
64, 
79, 
94, 


3, 4, 
20, 
35; 
50, 
65, 
80, 
95, 


5, 
21, 
36, 
515 
66, 
81, 
96, 


6, 

22, 
37, 
52, 
67, 
82, 
97, 


7, 8, 
23, 
38, 
537 
68, 
83, 
98, 


9, 
24, 
39, 
54, 
69, 
84, 


10, 
25, 
40, 
55, 
70, 
85, 


; 12, 
27, 
, 42, 
57, 
r 72, 
87, 























LX. Un EHI pandas WARAS 3877 [8 
好 的 解决 方案 是 从 基础 的 NumPy 数组 中 提取 这 些 数值 , 然后 进行 相 
性 ， 可 以 在 这 方面 为 我 们 提供 帮助 。 






































E 


- 











df.values) 





El 
A 


一 些 非 数字 的 数值 被 标 为 “nan”， 这 通常 




















输入 数据 文人 











., nan nan 26088.0] 
93.0 94.0 3172.0] 
94.0 96.0 33351.0] 


, 


A 


65.0 85.0 21732.0] 
94.0 90.0 11696.0] 
88.0 87.0 13228.0]] 


LA 


rg 


tr 


Tr 





o 


3.3 Pandas 数据 结构 之 Series 


Pandas 的 Series 数据 结构 是 | 














不 同类 型 的 元 素 组 成 的 一 维 数 组 ， 该 数据 结构 也 具有 标 
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签 。 我 们 可 以 通过 下 列 方式 来 创建 Pandas 的 Series 数据 结构 。 
。 使 用 Python 的 字典 来 创建 Series 
。 使 用 NumPy 数组 来 创建 Series 
。 使 用 单个 标量 值 来 创建 Series 


创建 Series 数据 结构 时 ， 我 们 可 以 向 构造 函数 递交 一 组 轴 标 签 ， 这 些 标 签 通常 称 为 索 
引 ， 是 一 个 可 选 参数 。 默 认 情 况 下 ， 如 果 使 用 NumPy 数组 作为 输入 数据 ， 那 么 Pandas 会 
将 索引 值 从 0 开始 自动 递增 。 如 果 传 递 给 构造 函数 的 数据 是 一 个 Python 字典 ， 那 么 这 个 字 
典 的 键 会 经 排序 后 变 成 相应 的 索引 。 如 果 输 入 数据 是 一 个 标量 值 ， 那 么 就 需要 由 我 们 来 提 
供 相 应 的 索引 。 索 引 中 的 每 一 个 新 值 都 要 输入 一 个 标量 值 。Pandas 的 Series 和 DataFrame 
数据 类 型 接口 的 特征 和 行为 是 从 NumPy 数组 和 Python 字典 那里 借用 来 的 ， 如 切片 、 通 过 
键 查找 以 及 向 量化 运算 等 。 对 一 个 DataFrame 列 执行 查询 操作 时 ， 会 返回 一 个 Series 数据 
结构 。 关 于 这 一 点 以 及 Series 的 其 他 特点 ， 我 们 会 以 3.2 节 中 的 数据 为 例 进行 说 明 ， 所 以 
需要 再 次 加 载 CSV 文件 。 

CD 首先， 我 们 选中 输入 文件 中 的 第 一 列 ， 即 Country 列 ， 然 后 ， 显 示 这 个 对 象 在 
部 作用 域 中 的 类 型 。 























































































































































































































































































































al 














country col = df["Country"] 
print("Type df", type (df)) 
print("Type country col", type(country col)) 

















如 今 我 们 可 以 肯定 ， 当 选中 DataFrame 的 一 列 时 ， 得 到 的 是 一 个 Series 型 的 数据 ， 
代码 如 下 。 





Type df «class 'pandas.core.frame.DataFrame'» 








Type country col «class 'pandas.core.series.Series'» 


提示 

如 果 需 要 ,我 们 打开 一 个 Python 或 者 IPython shell, 导 
qp A. Pandas 后 就 可 以 通过 DIOSA ET Hue 型 提供 

的 各 种 函数 和 属性 了 ， 这 时 显示 的 函数 列表 将 会 更 加 

全 面 。 


(2) Pandas 的 Series 数据 结构 不 仅 共享 了 DataFrame 的 一 些 属性 ， 还 另外 提供 了 与 名 
称 有 关 的 一 个 属性 。 下 面 通 过 代码 做 进一步 的 探索 。 


print("Series shape", country col .shape) 
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print("Series index", country col.index) 
print("Series values", country col.values) 


print("Series name", country col.name) 

















输出 内 容 ( 为 了 节约 版 面 ， 这 里 仪 截取 了 部 分 内 容 ) 如 下 。 




















Series shape (202,) 
Series index Int64Index([0, 1, 2, 3, 4, 5, 


6, 7, 8, 9, 10, 11, 12, ...], dtype-'int64') 
Series values ['Afghanistan' ... 'Vietnam' 'West Bank and 
Gaza' 'Yemen' 'Zzambia' 'Zimbabwe'] 


Series name Country 





(3) 为 了 演示 Series 的 切片 功能 ， 这 里 以 截取 Series 变量 Country 中 的 最 后 两 个 国 
为 例 进行 说 明 ， 具 体 代 码 如 下 。 





5t 











print("Last 2 countries", country col[-2:]) 








print("Last 2 countries type", type(country col[-2:])) 

















就 像 我 们 看 到 的 那样 ， 利 用 切片 技术 ， 我 们 得 到 了 一 个 新 的 Series 数据 对 象 。 


























Last 2 countries 

200 Zambia 

201 Zimbabwe 

Name: Country, dtype: object 





Last 2 countries type «class 'pandas.core.series.Series'» 








(4) NumPy 的 函数 同样 适用 于 Pandas 的 DataFrame 和 Series 数据 结构 。 例 如 ， 可 以 
使 用 NumPy 的 sign0O 函 数 来 获得 数字 的 符号 : 正 数 返 回 1， 负 数 返 回 -1， 零 值 返 回 0。 下 
面 将 这 个 函数 应 用 到 前 面 的 DataFrame 数据 及 其 最 后 一 列 上 面 ， 即 数据 集中 各 国 的 人 口 
数 



























































o 


pn 





last col = df.columns[-1] 
print ("Last df column signs:\n", last col, 
np.sign(df[last col]), "Mn") 


为 了 节约 版 面 ， 这 里 对 输出 内 容 进行 了 一 定 的 删 减 ， 代 码 如 下 。 


Last df column signs Population (in thousands) total 0 1 
1 T 

[TRUNCATED] 

198 NaN 
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199 1 
200 d 
201 1 
Name: Population (in thousands) total, Length: 202, dtype: 
float64 
提示 
注意 ，198 号 索引 对 应 的 人 口 值 为 “NaN”， 相 应 的 数 
据 项 如 下 。 


West Bank and Gaza,199,1,,,;,;.; 




















我 们 可 以 在 DataFrames, Series 和 NumPy 数组 之 间 进 行 各 种 类 型 的 数值 运算 。 举 例 来 
说 ， 如 果 得 到 pandas 的 Series 数据 中 的 一 个 基础 NumPy 数组 ， 然 后 把 它 从 该 Series PIR 
掉 ， 这 时 我 们 可 能 希望 得 到 下 面 两 种 结果 : 
e 一 个 数组 ， 各 个 元 素 以 零 填充 ， 而 且 至 少 有 一 个 NaN 前 面 的 步骤 中 己 经 提 到 过 
NaN); 
。 一 个 元 素 全 部 为 零 值 的 数组 。 


对 于 NumPy 函数 来 说 ， 涉 及 NaN 的 大 部 分 运算 都 会 生成 NaN。 下 面 我 们 使 用 一 个 Python 
会 话 进行 说 明 。 


































































































In: np.sum([0, np.nan]) 
Out: nan 

















利用 下 面 的 代码 执行 减法 运算 。 


print np.sum(df[last col] - df[last col].values) 





到 的 数据 与 第 二 种 类 型 的 结果 相符 


~ 





本 节 涉 及 的 代码 取 自 本 书 代 码 包 中 的 ch-03.ipynb 文件 。 


3.4 利用 Pandas 查询 数据 











因为 Pandas 的 DataFrame 的 结构 类 似 于 关系 型 数据 库 ， 所 以 从 DataFrame 读 取 数据 
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可 以 看 作 是 一 种 查询 操作 。 下 面 的 例子 中 ， 我 们 将 会 从 Quandl 检索 年 度 太 阳 黑 子 数 据 。 
为 此 ， 我 们 既 可 以 使 用 Quandi API， 也 可 以 亲自 动手 从 http:/www.quandl.com/SIDC/ 
SUNSPOTS A-Sunspot-Numbers-Annual 页 面 以 CSV 文件 的 形式 下 载 数据 。 如 果 想 安装 
API， 我 们 可 以 从 Quandi 网 站 下 载 相应 的 安装 程序 ， 或 者 运行 以 下 命令 。 




































































$ pip3 install Quandl 


提示 
Quandl 的 API 可 以 免费 使 用 ,但 是 有 一 个 限制 ， 即 每 天 
最 多 调用 50 次 。 如 果 超 过 规定 的 调用 次 数 ， 则 需要 申 
请 身份 验证 密 钥 。 不 过 ， 这 里 的 代码 无 需 使 用 密 钥 。 如 
i 果 需 要 使 用 密 钥 或 读 取 下 载 的 CSV 文件 ， 对 这 里 的 代 
码 稍 作 修改 即 可 。 如 果 有 困难 ， 请 参考 第 1 章 中 从 何 处 寻 
求 帮助 和 参考 资料 部 分 ， 或 者 到 官方 指定 的 Python 文档 
中 查找 解决 方案 。 








话 不 多 说 ， 下 面 来 看 如 何 利用 Pandas 的 DataFrame 来 查询 数据 。 
(1) 下 载 数据 ， 导 入 Quandl API 后 ， 可 以 像 下 面 这 样 来 下 载 数据 。 






































HI 





import quandl 


# Data from 

http://www.quandl.com/SIDC/SUNSPOTS A-Sunspot-Numbers-Annual 
f PyPi url https://pypi.python.org/pypi/Quandl 

sunspots = quandl.get("SIDC/SUNSPOTS A") 





(2) head0 和 tailO0 这 两 个 函数 的 作用 类 似 于 UNIX. 系统 中 同名 的 两 个 命令 ， 即 选取 
DataFrame 的 前 n 个 和 后 n 个 数据 记录 ， 其 中 是 一 个 整 型 参数 。 

















print ("Head 2", sunspots.head(2) ) 
print("Tail 2", sunspots.tail(2)) 














下 面 给 出 太阳 黑子 数据 的 前 两 条 和 后 两 条 数据 的 内 容 〈 为 了 保持 版 面 简洁 起 见 ， 没 有 
在 这 里 显示 所 有 列 ; 不 过 在 运行 代码 的 时 候 ， 输 出 中 将 含有 数据 集 的 所 有 列 )。 




































































Head 2 Number 
Year 
1700-12-31 5 
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1701-12-31 11 


[2 rows x 1 columns] 

Tail 2 Number 
Year 

2012512231 57,77 
2013-12-31 64.9 

[2 rows x 1 columns] 




















注意 ， 我 们 有 且 只 有 一 列 数据 来 存放 每 年 太阳 黑子 的 数量 ， 而 日 期 属于 DataFrame 索 
引 的 一 部 分 。 


(3) 下 面 用 最 近 的 日 期 来 查询 最 近 一 年 太阳 黑子 的 相关 数据 。 



































last date = sunspots.index[-1] 
print("Last value", sunspots.loc[last date]) 




















我 们 可 以 将 下 面 的 输出 内 容 与 前 面 得 到 的 结果 进行 比 对 。 








Last value Number 64.9 
Name: 2013-12-31 00:00:00, dtype: floato4 








(45 下 面 介绍 如 何 通过 YYYYMMDD 格式 的 日 期 字符 串 来 查询 日 期 ， 具 体 如 下 。 

















print ("Values slice by date:\n", sunspots["20020101": 
"20131231"]) 











以 上 结果 为 2002—2013 年 的 数据 记录 。 


Values slice by date Number 
Year 

2002-12-31 104.0 

[TRUNCATED] 





2013-12-31 64.9 
[12 rows x 1 columns] 




















(5) 索引 列表 也 可 用 于 查询 ， 代 码 如 下 。 








print("Slice from a list of indices:Mn", sunspots.iloc[[2, 4, 
-4, -2]]) 


上 述 代 码 会 选择 下 列 各 行 。 





Slice from a list of indices Number 
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Year 

1702-12-31 16.0 
1704-12-31 36.0 
2010-12-31 16.0 
2012-12-31 527.1 


[4 rows x 1 columns] 








(6) 要 想 选择 标量 值 ， 有 两 种 方法 ， 这 里 给 出 的 是 速度 明显 占 优势 的 第 二 种 方法 。 它 
需要 两 个 整数 作为 参数 ， 其 中 第 一 个 整数 表示 行 ， 第 二 个 整数 表示 列 。 


























print("Scalar with Iloc:", sunspots.iloc[0, 0]) 


print("Scalar with iat", sunspots.iat[1, 0]) 











上 面 的 代码 将 数据 集 的 第 一 个 值 和 第 二 个 值 作为 标量 返回 。 

















Scalar with Iloc 5.0 
Scalar with iat 11.0 

















































































































CD) 查询 布尔 型 变量 的 方法 与 SQL 的 Where 子 句 非常 接近 。 下 面 的 代码 将 查询 大 于 
算术 平均 值 的 各 个 数值 。 注 意 ， 在 整个 DataFrame 中 进行 查询 与 在 单列 上 进行 查询 是 有 区 
别 的 。 

print ("Boolean selection", sunspots[sunspots > 

sunspots.mean()]) 

print ("Boolean selection with column label: n", 

sunspots[sunspots['Number of Observations'] » sunspots['Number 

of Observations'].mean()]) 

显著 的 区 别 在 于 ， 第 一 个 查询 操作 得 到 的 是 所 有 数据 行 ， 其 中 与 条 件 不 符 的 行将 被 赋 
CF NaN 值 ， 第 二 个 查询 操作 返回 的 只 是 其 值 大 于 平均 值 的 那些 行 。 



























































Boolean Selection Number 
Year 
1700-12-31 NaN 
TRUNCATED] 
1759-12-31 54.0 
314 rows x 1 columns] 
Boolean selection with column label Number 
Year 
1705-12-31 59.0 
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[TRUNCATED] 





1870-12-31 T3392 


[127 rows x 1 columns] 


以 上 示例 代码 取 自 本 








世代 码 包 中 的 ch. 03.ipynb 文件 。 


3.5 利用 Pandas 的 DataFrame 进行 统计 计算 








Pandas 的 DataFrame 数据 结构 为 我 们 提供 了 若干 统计 函数 ， 表 3-1 给 出 了 部 分 方法 及 



























































































































































































































































其 简要 说 明 。 
表 3-1 
方法 说 明 
describe 这 个 方法 将 返回 描述 性 统计 信息 
Count 这 个 方法 将 返回 非 NaN 数据 项 的 数量 
这 个 方法 用 于 计算 平均 绝对 偏差 (mean absolute deviation)， 即 类 似 于 标准 差 的 
个 有 力 统计 工 
median 这 个 方法 将 返回 中 位 数 ， 等 价 于 第 50 位 百 分 位 数 的 值 
min 这 个 方法 将 返回 最 小 值 
max 这 个 方法 将 返回 最 大 值 
mode 这 个 方法 将 返回 众 数 (mode)， 即 一 组 数据 中 出 现 次 数 最 多 的 变量 值 
std 这 个 方法 将 返回 表示 离散 度 〈dispersion) 的 标准 差 ， 即 方差 的 平方 根 
var 这 个 方法 将 返回 方差 
skew 这 个 方法 用 来 返回 偏 态 系数 〈skewness)， 该 系数 表示 的 是 数据 分 布 的 对 称 程度 
tr 这 个 方法 将 返回 峰 态 系数 〈kurtosis)， 该 系数 用 来 反映 数据 分 布 曲 线 顶 端 尖 峭 或 
扁平 程度 




















下 面 使 用 上 例 中 的 数据 来 演示 这 些 统计 函数 的 使 用 方法 。 如 果 读 者 对 完整 的 代码 感 兴 
趣 ， 请 参考 本 书 代 码 包 中 的 ch-03.ipynb 文件 。 演 示 代 码 如 下 。 








import quandl 
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# Data from http://www.quandl.com/SIDC/SUNSPOTS A-Sunspot-Numbers-Annual 
# PyPi url https://pypi.python.org/pypi/Quandl 
sunspots = quandl.get("SIDC/SUNSPOTS A") 





print("Describe", sunspots.describe(),"Mn") 
print("Non NaN observations", sunspots.count(),"Mn") 
print("MAD", sunspots.mad(),"Mn") 
print("Median", sunspots.median(),"Nn") 
print("Min", sunspots.min(),"n") 

print("Max", sunspots.max(),"Mn") 

print("Mode", sunspots.mode(),"Mn") 

print ("Standard Deviation", sunspots.std(),"Mn") 
print("Variance", sunspots.var(),"Mn") 
print("Skewness", sunspots.skew(),"Mn") 
print("Kurtosis", sunspots.kurt(),"Mn") 








以 上 脚本 的 运行 结果 如 图 3-2、 图 3-3 所 示 。 





Describe Yearly Mean Total Sunspot Number Yearly Mean Standard Deviation \ 
count 316.000000 198.000000 
mean 79.503481 8.030303 
std 62.057114 3.807299 
min 0.000000 1.700000 
25$ 25.050000 4.725000 
508 66.700000 7.700000 
758 116.400000 10.475000 
max 269.300000 19.100000 


Number of Observations Definitive/Prowtsional Indicator 


count 198.000000 316.0 
mean 1424.888889 1.0 
std 2394.898980 0.0 
min 150.000000 1.0 
258 365.000000 1.0 
50$ 365.000000 1.0 
75% 366.000000 1.0 
max 8903.000000 1.0 
Non NaN observations Yearly Mean Total Sunspot Number 316 
Yearly Mean Standard Deviation 198 

Number of Observations 198 

Definitive/Provisional Indicator 316 


dtype: int64 


MAD Yearly Mean Total Sunspot Number 50.987620 
Yearly Mean Standard Deviation 3.125375 
Number of Observations 1777.463524 
Definitive/Provisional Indicator 0.000000 


dtype: float64 


Median Yearly Mean Total Sunspot Number 66.7 
Yearly Mean Standard Deviation 7.7 
Number of Observations 365.0 
Definitive/Provisional Indicator 1.0 


dtype: float64 











图 3-2 
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Min Yearly Mean Total Sunspot Number 0.0 
Yearly Mean Standard Deviation 1.7 
Number of Observations 150.0 
Definitive/Provisional Indicator 1.0 
dtype: float64 


Max Yearly Mean Total Sunspot Number 269.3 
Yearly Mean Standard Deviation 19.1 
Number of Observations 8903.0 
Definitive/Provisional Indicator 1.0 


dtype: float64 


Mode Yearly Mean Total Sunspot Number Yearly Mean Standard Deviation \ 
0 18.3 9.2 


Number of Observations Definitive/Provisional Indicator 


0 365.0 1.0 
Standard Deviation Yearly Mean Total Sunspot Number 62.057114 
Yearly Mean Standard Deviation 3.807299 

Number of Observations 2394.898980 
Definitive/Provisional Indicator 0.000000 


dtype: float64 


Variance Yearly Mean Total Sunspot Number 3.851085e-«03 


Yearly Mean Standard Deviation 1.449552e+01 
Number of Observations 5.735541e+06 
Definitive/Provisional Indicator 0.000000e+00 


dtype: float64 


Skewness Yearly Mean Total Sunspot Number 0.799452 


Yearly Mean Standard Deviation 0.555067 
Number of Observations 1.876098 
Definitive/Provisional Indicator 0.000000 


dtype: float64 


Kurtosis Yearly Mean Total Sunspot Number -0.143733 


Yearly Mean Standard Deviation -0.244310 
Number of Observations 1.783261 k 
Definitive/Provisional Indicator 0.000000 


dtype: float64 














加 








3-3 ”脚本 运行 结果 





3.6 利用 Pandas 的 DataFrame 实现 数据 聚合 





数据 聚合 (data aggregation) 是 关系 型 数据 库 中 比较 常用 的 一 个 术语 。 使 用 数据 库 时 ， 
我 们 可 以 利用 查询 操作 对 各 列 或 各 行 中 的 数据 进行 分 组 ， 这 样 就 可 以 针对 其 中 的 每 一 组 数 
据 进 行 各 种 不 同 的 操作 了 。 实 际 上 ，Pandas 的 DataFrame 数据 结构 也 为 我 们 提供 了 类 似 的 
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功能 。 我们 可 以 把 生成 的 数据 保存 到 Python 字典 中 ， 然 后 利用 这 些 数 志 
DataFrame， 接 下 来 就 可 以 练习 Pandas 提供 的 聚合 功能 


























居 来 创建 一 个 Pandas 


(1) 我 们 为 NumPy 的 随机 数 生成 器 指定 种 和子， 确保 重复 运行 程序 时 生成 的 数据 不 会 








走样 。 该 数据 有 4 列 ， 分 别 是 : 
。 Weather (一 个 字符 串 ) 

e Food《〈 一 个 字符 串 ) 

e Price“〈 一 个 随机 浮 点 数 ) 

。 Number (1—9 之 间 的 一 个 随机 整数 ) 








IZ 
































假设 有 一 些 客户 消费 调查 、 天 和 气 与 市 场 定 价 方面 的 资料 ， 这 里 要 做 的 是 计 


并 跟踪 样本 的 大 小 及 参数 。 





import pandas as pd 

from numpy.random import seed 
from numpy.random import rand 
from numpy.random import rand int 
import numpy as np 


seed(42) 

df = pd.DataFrame(('Weather' : ['cold', 'hot', 'cold', 
"hot, "cotd',- hot p "cold!]; 

'Food' : ['soup', 'soup', 'icecream', 'chocolate', 
'icecream', 'icecream', 'soup'], 

'Price' : 10 * rand(7), 'Number' : rand int(1, 9,)]) 
print (df) 


我 们 将 得 到 下 面 的 结果 。 





Food Number Price Weather 
0 soup 8 3.745401 cold 
1 soup 5 9.507143 hot 
2 icecream 4 7.319939 cold 
3 chocolate 8. 5.986585 hot 
4 icecream 8 1.560186 cold 
5 icecream 3 1.559945 hot 
6 soup 6 0.580836 cold 





[7 rows x 4 columns] 








“ 均 价 格 
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提示 
D 注意 ， 列 标签 是 按照 Python 字典 各 个 键 的 词汇 顺序 进 
行 排列 的 。 所 谓 的 词汇 或 者 词典 顺序 ， 就 是 按照 字符 串 
中 各 个 字符 的 字母 表 顺 序 进行 排序 。 
(2) 通过 Weather 列 为 数据 分 组 ， 然 后 遍历 各 组 数据 ， 代 码 如 下 。 


weather group = df.groupby('Weather') 











i20 

for name, group in weather group: 
i=i+1 
print ("Group", i, name) 
print (group) 


我 们 把 天 气 状 况 分 为 两 种 ， 即 热天 与 冷 天 ， 据 此 可 以 把 数据 分 为 两 组 。 


Group 1 cold 


Food Number Price Weather 
0 soup 8 3.745401 cold 
2 icecream 4 7.319939 cold 
4 icecream 8 1.560186 cold 
6 soup 6 0.580836 cold 


[4 rows x 4 columns] 





Group 2 hot 

Food Number Price Weather 
1 soup 5. 9.507143 hot 
3 chocolate 8 5.986585 hot 
5 icecream 3 1.559945 hot 


[3 rows x 4 columns] 





(3) 变量 Weather group 是 一 种 特殊 的 Pandas 对 象 ， 可 由 groupby0 生 成 。 这 个 对 象 为 
我 们 提供 了 聚合 函数 ， 下 面 我 们 展示 它 的 使 用 方法 。 


print("Weather group first\n", weather group.first()) 














print ("Weather group last\n", weather group.last()) 
print ("Weather group mean\n", weather group.mean()) 




















以 上 代码 将 输出 各 组 数据 的 第 1 行内 容 、 第 2 行内 容 以 及 各 组 的 平均 值 ， 显 示 如 下 。 


Weather group first 











Er 














Food Number Price 
Weather 
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cold soup 8 3.745401 
hot soup 5 9.507143 
[2 rows x 3 columns] 
Weather group last 

Food Number Price 
Weather 
cold soup 6 0.580836 
hot icecream 3 1.559945 
[2 rows x 3 columns] 
Weather group mean Number Price 
Weather 
cold 6.500000 3.301591 
hot 5.333333 5.684558 
[2 rows x 2 columns] 





(4) 恰 如 利 用 数据 库 的 查询 操作 那样 ， 我 们 也 可 以 针对 多 列 ; 
此 后 ， 我 们 便 可 以 利用 groups 








wf group - 
print("WF Groups", 




















df.groupby(['Weather', 











行 分 组 。 

















"uni 
eu 
| 


'Food!]) 





wf group.groups) 












































行 中 的 各 个 数据 项 都 可 以 通过 索引 值 引用 ， 有 具体 如 下 。 
WF Groups (('hot', 'chocolate'): [3], ('cold', 'icecream'): 
[2, 4], ('hot', 'icecream'): [5], ('hot', 'soup'): [1], 
('cold', 'soup'): [0, 61} 





(5) 通过 agg0 方 法 ， 可 以 对 数据 组 施加 一 系列 的 NumPy 函数 。 


print ("WF AggregatedMn", 


= 











面 的 输出 结果 更 乱 。 


WE Aggregated 


Weather Food 


cold icecream 
soup 
hot chocolate 


icecream 


wf group.agg([np.mean, np.median])) 








Number Price 
mean median mean 

6 6 4.440063 

7 7 2.163119 

8 8. 5.986585 

3 3 1.559945 


属性 来 了 解 所 生成 的 数据 组 以 及 每 一 组 包 


显而易见 ， 我 们 也 可 以 施加 更 多 的 函数 。 不 过 这 样 做 的 结果 是 ， 它 的 输 


ka RT NI E 


针对 天 气 数 据 和 食物 数据 的 每 一 种 可 能 的 组 合 ， 都 会 为 其 生成 一 个 新 的 数据 组 。 每 一 
Jl 





median 


.440063 
:T631LI9 
.986585 
.559945 
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SOUP 5 5 9.507143 39.507143 


[5 rows x 4 columns] 





完整 的 数据 聚合 示例 代码 请 参考 data aggregation.py 文件 ， 这 个 文件 位 于 本 书 的 代码 包 中 。 


3.7 DataFrame 的 串联 与 附加 操作 





数据 库 的 数据 表 有 内 部 连接 和 外 部 连接 两 种 连接 操作 类 型 。 实 际 上 ，Pandas 的 
DataFrame 也 有 类 似 的 操作 ， 因 此 我 们 也 可 以 对 数据 行进 行 串联 和 附加 。 我 们 将 使 用 前 面 
章节 中 的 DataFrame 来 练习 数据 行 的 串联 与 附加 操作 。 我 们 首先 选中 前 面 3 行 数据 。 


print("df :3Mn", df[:3]) 


下 面 我 们 来 看 输出 的 是 否 为 前 3 行 的 内 容 。 












































df i3 
Food Number Price Weather 
0 soup 8 3.745401 cold 
soup 5. 9.507143 hot 
2 icecream 4 7.319939 cold 


函数 concat0 的 作用 是 串联 DataFrame， 例 如 可 以 把 一 个 由 3 行 数据 组 成 的 DataFrame 
与 其 他 数据 行 串 接 ， 以 便 重 建 原 DataFrame。 


print("Concat Back together\n", pd.concat ([df[:3], df[3:]])) 























串联 后 的 效果 如 下 。 
Concat Back together 

Food Number Price Weather 
0 soup 8 3.745401 cold 
1 soup 5. 9.507143 hot 
2 icecream 4 7.319939 cold 
3 chocolate 8 5.986585 hot 
4 icecream 8 1.560186 cold 
5 icecream 3 1.559945 hot 
6 soup 6 0.580836 cold 





[7 rows x 4 columns] 


为 了 追加 数据 行 ， 可 以 使 用 appendO PA Zr 


print("Appending rows\n", df[:3].append(df[5:])) 
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我 们 得 到 的 DataFrame 的 前 3 行 数据 来 自 原 DataFrame， 后 面 两 行 数据 是 附加 上 的 。 

















Appending rows 





Food Number Price Weather 
0 soup 8 3.745401 cold 
T soup 5 9.507143 hot 
2 icecream 4 7.319939 cold 
5 icecream 3 1.559945 hot 
6 Soup 6 0.580836 cold 


[5 rows x 4 columns] 


3.8 连接 DataFrames 











为 演示 连接 操作 ， 我 们 要 用 到 两 个 CSV 文件 ，dest.csv 与 tips.csv 文件 。 假 设 我 们 正在 
运营 一 家 出 租车 公司 ， 每 当 乘 客 在 目的 地 下 车 后 ， 我 们 就 需要 向 destesv 文件 增加 一 行 数 
据 ， 内 容 为 出 租车 司机 的 员工 编号 与 目的 地 。 





















































EmpNr,Dest5,The Hague3,Amsterdam9,Rotterdam 








有 时 ， 出 租车 司机 会 收 到 一 些小 费 ， 因此 我 们 希望 把 它 登 记 到 tips.esv 文件 中 〈 这 听 起 
来 好 像 不 太 现 实 ， 如 果 读者 有 好 的 案例 ， 请 随时 提供 给 我 们 )。 


























EmpNr,Amount5,109,57,2.5 





Pandas 提供 的 mergeO AEK DataFrame 的 join0 实 例 方法 都 能 实现 类 似 数据 库 的 连接 
操作 功能 。 默 认 情 况 下 ，join0 实 例 方法 会 按照 索引 进行 连接 。 不 过 ， 有 时 候 这 不 符合 我 们 
的 要 求 。 使 用 关系 型 数据 库 查 询 语 言 (SQL) 时 ， 可 以 进行 内 部 连接 、 左 外 连接 、 右 外 连 
接 与 完全 外 部 连接 等 操作 。 




































































提示 

对 于 内 部 连接 ， 它 会 从 两 个 数据 表 中 选取 数据 ， 只 

要 两 个 表 中 连接 条 件 规定 的 列 上 存在 相 匹 配 的 值 ， 
qp 相应 的 数据 就 会 被 组 合 起 来 。 对 于 外 部 连接 ， 因 为 

不 要 求 进行 匹配 处 理 ， 所 以 将 返回 更 多 的 数据 。 关 

于 连接 操作 的 进一步 介绍 ， 读 者 可 以 参考 维基 百科 

A d. 
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虽然 Pandas 支持 所 有 的 这 些 连接 类 型 ， 限 于 篇 幅 ， 这 是 
连接 。 
。 我 们 用 merge() 函 数 按照 员工 编号 进行 连接 处 理 ， 代 码 如 下 。 


pese] 
并 
MAN 
x 
Ld 
ct 
nk 
E 
i 
m 
JT 
al 
Ll 








E JD 



































print("Merge() on keyMn", pd.merge(dests, tips, on-s'EmpNr')) 


下 面 给 出 内 部 连接 的 结果 。 


Merge() on key 





EmpNr Dest Amount 
0 5 The Hague 10 
1 9 Rotterdam 5 


[2 rows x 3 columns] 






































。 JH joinQZ EAT ERREN, t EH JE SCR TR IE RER RIA RER SR 











print("Dests join() tips\n", dests.join(tips, lsuffix-'Dest', 
rsuffix-'Tips')) 

















这 个 方法 会 连接 索引 值 ， 因 此 得 到 的 结果 与 SQL 内 部 连接 会 有 所 不 同 。 


Dests join() tips 








EmpNrDest Dest EmpNrTips Amount 

5 The Hague 5 10.0 

1 3 Amsterdam 9 5.0 
2 9 Rotterdam 7 2.5 


[3 rows x 4 columns] 



































iz 


e. 用 merge0 执 行内 部 连接 时 ， 更 显 式 的 方法 如 下 。 








print("Inner join with merge()Mn", pd.merge(dests, tips, 
how-'inner!')) 




















输出 内 容 如 下 。 

Inner join with merge() 
EmpNr Dest Amount 

0 5 The Hague 10 

1 9 Rotterdam 5 


[2 rows x 3 columns] 
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只 要 稍 作 修改 ， 就 可 以 变 成 完全 外 部 连接 。 





print ("Outer joinMn", pd.merge(dests, tips, how-'outer')) 


此 外 部 连接 操作 增添 了 几 行 带 有 NaN 值 的 数据 。 








Outer join 





EmpNr Dest Amount 
0 5 The Hague 10.0 
1 3 Amsterdam NaN 
2 9 Rotterdam 
3 7 NaN 


[4 rows x 3 columns] 

















如 果 使 用 关系 型 数据 库 的 查询 操作 ， 这 些 数据 都 会 被 设 为 NULL。 以 上 演示 代码 取 自 
本 书 代 码 包 中 的 ch - 03.ipynb 文件 : 


3.9 ”处 理 缺 失 数据 问题 




















无 论 我 们 喜 不 喜欢 ， 都 会 经 常 在 数据 记录 中 遇 到 空 字段 ， 所 以 我 们 最 好 接受 这 个 现实 
并 且 学 习 如 何 通过 一 种 可 行 的 方式 来 解决 这 种 问题 。 现 实 中 的 数据 不 仅 有 遗漏 的 现象 ， 而 
其 中 的 某 些 数据 还 可 能 是 错误 的 ， 因 为 所 有 的 测量 设备 都 难免 会 出 现 故障 。 对 于 Pandas 
来 说 ， 它 会 把 缺失 的 数值 标 为 NaN， 表 示 None: 还 有 一 个 类 似 的 符号 是 NaT， 不 过 ， 它 代 
表 的 是 datetime64 型 对 象 。 对 NaN 这 个 数值 进行 算术 运算 时 ， 得 到 的 结果 还 是 NaN。 如 果 
描述 性 统计 学 方法 遇 到 这 种 值 ， 如 求 和 与 求 均值 时 ， 结 果 就 不 同 了 。 就 像 我 们 在 前 面 的 例 
子 中 看 到 的 那样 , 有 时 NaN 被 当成 零 值 来 进行 处 理 。 然 而 , 在 诸如 求 和 之 类 的 运算 过 程 中 ， 
如 果 所 有 的 数值 都 是 NaN， 返 回 的 结果 仍然 是 NaN。 进 行 聚合 操作 时 ， 我 们 组 合 的 列 内 的 
NaN 值 会 被 忽略 。 下 面 我 们 会 重新 把 WHO first9cols.csv 加 载 到 一 个 DataFrame 中 。 注 意 ， 
这 个 文件 中 含有 许多 空白 字段 ,这 里 只 选取 前 3 行 数 据 , 其 中 包括 Country 7l 5j Net primary 
school enrolment ratio male (%) 列 的 标题 ， 具 体 代码 如 下 。 






















































































































































































































































































df = df[['Country', df.columns[-2]]][:2] 
print ("New df\n", df) 























这 样 ， 我 们 就 得 到 一 个 包含 两 个 NaN 值 的 DataFrame 数据 结构 ， 具 体内 容 如 下 。 


New df 
Country Net primary school enrolment ratio male (%) 
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0 Afghanistan NaN 
Albania 94 


[2 rows x 2 columns] 











Pandas 的 isnull0 函 数 可 以 帮 我 们 检查 缺失 的 数据 ， 使 用 方法 如 下 。 


print ("Null ValuesMn", pd.isnull(df)) 


对 于 我 们 的 DataFr ame， 它 的 输出 如 下 。 


Null Values 
Country Net primary school enrolment ratio male (£) 





0 False True 
1 False False 




















如 果 要 统计 每 一 列 中 NaN 值 的 数量 ， 只 要 对 isnull0 函 数 返 回 的 布尔 值 进行 求 和 即 可 。 
这 种 方法 之 所 以 奏效 ， 是 因为 在 求 和 的 过 程 中 True 值 被 视 为 1， 而 False 值 被 视 为 0 来 对 待 。 














Total Null Values 

Country 0 
Net primary school enrolment ratio male (%) 1 
dtype: int64 


类 似 地 ， 可 以 用 DataFrame 的 notnull0 方 法 来 考察 非 缺失 数据 。 


print("Not Null Values\n", df.notnull()) 














notnull(0) 方 法 的 返回 结果 与 isnull0 函 数 的 返回 结果 正好 相反 。 


Not Null Values 
Country Net primary school enrolment ratio male (£) 





0 True False 





1 True True 























如 果 一 个 DataFrame 含有 NaN 值 ， 那 么 将 这 个 DataFrame 中 的 值 都 乘 2 后 ， 结 果 还 是 
含有 NaN 值 ， 因 为 “ 乘 2” 是 一 种 算术 运算 。 


print("Last Column Doubled\n", 2 * df[df.columns[-1]]) 






































下 面 用 2 乘 以 含有 数值 的 最 后 一 列 〈 字 符 串 乘 以 2 表示 重复 该 字符 串 )。 


Last Column Doubled 
0 NaN 











换 缺 失 数据 ， 但 是 事情 并 不 总 是 如 此 。 


T 188 
Name: Net primary school enrolment ratio male ($), dtype: float64 


然而 ， 如 果 加 一 个 NaN fü. NaN 值 就 会 大 获 全 胜 。 


print("Last Column plus NaN\n", df[df.columns[-1]] + np.nan) 





如 你 所 见 ， 现 在 变 成 NaN 值 的 天 下 了 。 


Last Column plus NaN 
0 NaN1 NaN 
Name: Net primary school enrolment ratio male ($), dtype: float64 























通过 fillna() 方 法 ， 可 以 用 一 个 标量 值 (如 00 来 蔡 换 缺失 数据 ， 尽 管 有 时 可 以 用 0 8 












































print("Zero filledWMn", df.fillna(0)) 





执行 上 面 的 代码 后 ，NaN 值 就 会 被 0 蔡 换 。 


Zero filled 

Country Net primary school enrolment ratio male (%) 
0 Afghanistan 
1 Albania 94 





本 节 代 码 选 自 本 书 代 码 包 中 的 ch-03.ipynb 文件 。 


3.10 ”处理 日 期 数据 


(=f 
HR 





日 期 数据 处 理 起 来 比较 复杂 ， 如 Y2K [RIS ERGAB 2038 年 问题 以 及 时 区 问题 等 。 

















然 日 期 数据 的 处 理 很 环 手 ， 但 是 在 处 理 时 间 序 列 数据 时 ， 这 种 数据 是 必 不 可 少 的 。 好 在 
























































Pandas 可 以 帮 我 们 确定 日 期 区 间 、 对 时 间 序 列 数据 重新 采样 以 及 对 日 期 进行 算术 运算 。 


























下 面 ， 我 们 设 定 一 个 自 1900 年 1 月 1 日 开始 为 期 42 天 的 时 间 范 围 ， 有 具体 如 下 。 

















print ("Date range", pd.date range('1/1/1900', periods-42, freq-'D')) 





























当然 ，1 月 肯定 不 足 42 天 ， 因 此 结束 日 期 位 于 2 月 ， 不 信 可 以 检查 一 下 。 

















Date range «class 'pandas.tseries.index.DatetimeIndex'» 
[1900-01-01, ..., 1900-02-11] 
Length: 42, Freq: D, Timezone: None 
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表 3-2 引用 自 Pandas 的 官方 文档 ， 描 述 了 Pandas 用 的 各 种 频率 。 
表 3-2 
短 码 说 明 
B 营业 日 频率 
C 自 定义 营业 日 频率 (试验 性 的 ) 
D 日 历 日 频率 
W 同 频率 
M 月 未 频率 
BM 营业 月 末 频 率 
MS 月 初 频率 
BMS 营业 月 初 频率 
Q FRIZ 
BO 营业 季 未 频率 
季 初 频率 
BOS 营业 季 初 频率 
A 年 终 频率 
BR 营业 年 终 频率 
AS 年 初 频率 
BAS 营业 年 初 频率 
H 小 时 频率 
T 分 钟 频率 
Š 秒 频率 
i 毫秒 
U 微 秒 
在 Pandas 中 ,日 期 区 间 是 有 限制 的 。Pandas 的 时 间 惟 基于 NumPy datetime64 类 型 ， 





以 纳 秒 〈 十 亿 分 之 一 秒 ) 为 单位 ， 而 且 
有 效 的 时 间 惟 大 体 介 于 1677—2262 年 这 段 时 间 范 






































一 个 64 

















立 整数 来 表示 具体 数值 。 因 
围 内 。 当 然 ， 这 些 年 份 中 也 不 是 所 有 














此 ， 





日 


期 
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日 期 都 是 有 效 的 。 这 个 时 间 范 围 的 精确 中 点 应 该 是 1970 年 1 月 1 日 。 这 样 ，1677 年 1 
月 1 日 就 无 法 用 Pandas 的 时 间 惟 定义 ， 而 1677 年 9 月 30 日 则 可 以 ， 下 面 我 们 用 代码 
进行 说 明 。 



































trys 
print ("Date range", pd.date range('1/1/1677', periods-4, freq='D')) 
except: 
type, value, _ = sys.exc_info() 











print ("Error encountered", etype, value) 


以 上 代码 会 得 到 如 下 错误 信息 。 


Date range Error encountered «class 'pandas.tslib.OutOfBoundsDatetime'» Out 
of bounds nanosecond timestamp: 1677-01-01 00:00:00 





























根据 前 面 的 介绍 , 下 面 用 Pandas 的 DateOffset 函数 来 计算 允许 的 日 期 范围 , 代码 如 下 。 





























offset = DateOffset(seconds-2 ** 33/10 ** 9) 
mid = pd.to datetime ('1/1/1970') 
print("Start valid range", mid - offset) 





print("End valid range", mid + offset') 


结果 如 下 。 


Start valid range 1969-12-31 23:59:51.410065 
End valid range 1970-01-01 00:00:08.589935 


























我 们 可 以 用 Pandas 把 一 列 字 符 串 转换 成 日 期 数据 ， 当 然 ， 并 非 所 有 的 字符 串 都 可 以 进 
行 转换 。 当 Pandas 无 法 对 一 个 字符 串 进 行 转换 时 ， 就 会 报错 。 由 于 不 同 地 区 对 日 期 的 定义 
方式 会 有 所 不 同 ， 这 时 就 会 
























































print("With format", pd.to datetime(['19021112', '19031230'], 
format-'$Y$m$d')) 


个 字符 串 可 以 正确 地 进行 转换 ， 所 以 不 会 报错 。 


With format [datetime.datetime (1902, 11, 12, 0, 0) datetime.datetime (1903, 
12, 30, 0, 0)] 






































如 果 一 个 字符 串 明 显 不 是 日 期 ， 那 么 默认 情况 下 是 无 法 进行 转换 的 。 


print("Illegal date", pd.to datetime(['1902-11-12', 'not a date'])) 































































































70 第 3 章 Pandas Al] 
很 明显 ， 上 面 的 第 2 个 字符 串 是 无 法 进行 转换 的 。 
Illegal date ['1902-11-12' 'not a date'] 
如 果 需 要 进行 强制 转换 ， 必 须 把 参数 coerce 设置 为 True。 
print("Illegal date coerced", pd.to datetime(['1902-11-12', 'not a date'], 
rrors-'coerce!)) 
显而易见 ， 第 2 个 字符 串 仍 然 无 法 转化 为 一 个 日 期 ， 所 以 最 终 得 到 的 是 一 个 非 时 间 数 
据 NaT. 
Illegal date coerced «class 'pandas.tseries.index.DatetimeIndex'» 
[1902-11-12, NaT]Length: 2, Freq: None, Timezone: Non 
该 例子 的 示例 代码 取 自 本 书 代 码 包 中 的 ch-03.ipynb 文件 。 
3. 11 数据 透视 表 





熟悉 Excel 的 读者 都 知道 ， 数 据 透 视 表 可 以 用 来 汇总 数据 。 目 前 为 止 ， 本 章 中 所 见 





























的 CSV SAF PP EIECTUS CUP E SEPE I NAAT HN e 数据 透视 表 可 以 从 一 个 平面 文件 


中 指 


dx H 








定 的 行 和 列 中 聚合 数据 ， 这 种 聚合 操作 可 以 是 求 和 、 求 平均 值 、 求 标准 差 等 运算 。 
BE 我们 将 再 次 用 到 前 面 data aggregation.py 的 相关 数据 。 因 为 Pandas API 已 经 为 我 们 



































提供 了 顶级 pivot table) ER ZI LS JH]. DataFrame 方法 ， 所 以 ， 只 要 设置 好 aggfunc 
参数 ， 就 可 以 让 这 个 聚合 函数 来 执行 NumPy 中 诸如 sum0 之 类 的 函数 。 参 数 cols 用 来 





告诉 Pandas 要 对 哪些 列 进行 聚合 运算 。 下 面 针 对 Food 列 来 创建 一 个 数据 透视 表 ， 具体 



























































如 下 。 


print(pd.pivot table(df, cols-['Food'], aggfunc=np.sum)) 





我 们 得 到 的 数据 透视 表 包 含 了 完整 的 食物 数据 项 。 
Food chocolate icecream soup 
Number 8.000000 15.000000 19.00000 
Price 5.986585 10.440071 13.83338 


[2 rows x 3 columns] 


以 上 代码 取 自 本 书 代 码 包 中 的 ch-03.ipynb 文件 。 
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3.12 小结 











本 章 主要 介绍 了 Pandas, 它 是 Python 的 数据 分 析 程序 库 。 我 们 可 以 将 本 章 看 成 是 Pandas 
功能 特性 与 数据 结构 的 基础 入 门 资 料 。 本 章 介绍 了 Pandas 各 种 类 似 关系 型 数据 库 数据 表 的 
功能 ， 通 过 这 些 功 能 ， 我 们 可 以 高 效 地 进行 查询 、 聚 合 及 其 他 数据 操作 。 通 过 配合 使 用 
NumPy 和 Pandas， 我 们 可 以 完成 各 种 基本 的 统计 分 析 任 务 。 现 在 ， 读 者 是 不 是 觉得 对 于 数 
据 分 析 来 说 ， 有 了 Pandas 就 万 事 俱 备 了 呢 ? 实际 上 ， 这 还 远 远 不 够 。 

掌握 了 本 章 介绍 的 基本 之 后 ， 我 们 将 在 第 4 章 中 详解 数据 分 析 过 程 中 常用 的 统计 和 数 
值 函 数 。 


我 们 鼓励 读者 阅读 参考 文献 中 介绍 的 各 种 书籍 ， 以 便 更 加 详细 和 深入 地 探索 Pandas. 
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EVE ER R TE FOU TCR ERU 2 r3 E T Em. TEER EEEE TERI STET 
法 ， 都 有 助 于 从 原始 数据 中 获得 见解 和 进行 推断 。 比 如 ， 通 过 数据 求 出 变量 的 算术 平均 值 
和 标准 差 ， 并 由 此 推出 该 变量 的 取 值 范围 和 期 望 值 后 ， 我 们 就 可 以 利用 统计 检验 来 评估 所 
得 结论 的 可 信和 度 了 。 
线性 代数 关注 的 是 解 线性 方程 组 ， 而 NumPy 和 SciPy 的 linalg 程序 包 可 以 帮 我 们 轻松 
地 解决 这 个 问题 。 线 性 代数 用 途 广泛 ， 如 利用 模型 拟 合 数 据 时 就 离 不 开 它 。 除 此 之 外 ， 本 
章 还 会 介绍 其 他 几 种 NumPy 和 SciPy 程 序 包 , 内 容 涉 及 随机 数 的 生成 和 掩 码 式 数 组 (Masked 













































































































































































本 章 涉及 以 下 主题 。 
。 利用 NumPy 处 理 简单 的 描述 性 统计 运 
。 利用 NumPy 进行 线性 代数 运算 
。 利用 Numpy 寻找 特征 值 和 特征 向 量 
。 NumPy 随机 数 
e 创建 NumPy 掩 码 式 数 组 (Masked arrays? 


4.1 用 NumPy 进行 简单 的 描述 性 统计 计算 



































































































































在 本 书 中 ， 我 们 会 尽量 使 用 各 种 不 同 的 可 以 通过 公开 渠道 获得 的 数据 集 。 但是， 这 些 
数据 的 主题 未 必 正 是 读者 的 兴趣 之 所 在 。 此 外 ， 虽 然 每 个 数据 集 都 有 其 自身 的 特点 ， 但 是 
本 书 介绍 的 技巧 却 是 通用 的 ， 所 以 同样 适用 于 大 家 的 领域 。 在 本 章 中 ， 我 们 将 数据 集 从 
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statsmodels 库 载 入 NumPy 数组 ， 来 进行 数据 分 析 。 


Mauna Loa CO; 测量 数据 是 我 们 用 到 的 statsmodels 库 的 第 一 个 数据 集 。 以 下 代码 将 会 
加 载 数 据 集 并 给 出 基本 的 描述 性 统计 值 。 




































































import numpy as np 








from scipy.stats import scoreatpercentile 
import pandas as pd 







































































data = pd.read csv("co2.csv", index col=0, parse dates=True) 

co2 = np.array (data.co2) 

print ("The statistical values for amounts of co2 in atmosphere: \n") 
print("Max method", co2.max()) 

print ("Max function", np.max(co2)) 

print("Min method", co2.min()) 

print("Min function", np.min(co2)) 

print("Mean method", co2.mean()) 

print("Mean function", np.mean(co2)) 

print("Std method", co2.std()) 

print("Std function", np.std(co2)) 

print("Median", np.median(co2)) 

print("Score at percentile 50", scoreatpercentile(co2, 50)) 

上 面 的 代码 会 计算 NumPy 数组 的 平均 值 、 中 位 数 、 最 大 值 、 最 小 值 以 及 标准 差 。 


提示 
qp 如 果 这 些 术语 听 起 来 不 太 熟 悉 ， 不 妨 花 些 时 间 到 维基 

百科 或 其 他 地 方 了 解 一 下 相关 内 容 。 前 言 部 分 讲 过 ， 
本 书 假设 读者 熟悉 基本 的 数学 和 统计 概念 。 

这 里 使 用 的 数据 来 自 statsmodels 包 ， 这 些 都 是 美国 夏威夷 Mauna Loa 天 文 台 观测 到 的 

XA CO; lf. 
现在 ， 我 们 来 看 看 具体 代码 。 
(1) 首先 ， 使 用 import 语句 来 加 载 Python 包 的 相关 模块 ， 上 有 具体 如 下 。 


































































































import numpy as np 
from scipy.stats import scoreatpercentile 
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import p 


(2) 然后 





data = p 
co2 = np 


ERRE 
观测 值 。 


andas as pd 


， 调 用 下 面 的 函数 来 加 载 数据 。 


d.read csv("co2.csv", index col-0, parse dates-True) 
.array(data.co2) 














中 的 数据 将 被 复制 到 NumPy 数组 co2 中 ， 该 数组 用 来 存放 大 气 中 CO 的 





























G) 数组 的 最 大 值 可 以 通过 ndarray 的 方法 或 者 其 他 的 NumPy 函数 来 获得 ， 另 外 最 小 
值 、 平 均值 和 标准 差 同样 如 此 。 下 列 代码 将 会 显示 各 种 统计 指标 。 


prin 
prin 


prin 
prin 


prin 








prin 


("S 
("S 


prin 





prin 





ax meth 
ax func 
in meth 
in func 


ean met 





ean fun 
Std meth 
Std func 





(4) 中 位 数 (median) 可 以 用 NumPy 或 者 SciPy 的 函数 得 到 。 下 列 代 码 将 计算 数据 第 


50 百 分 位 数 。 


print ("M 
print("S 





以 下 是 输 




















ax method", co2.max()) 
ax function", np.max(co2)) 


in method", co2.min()) 
in function", np.min(co2)) 





ean method", co2.mean()) 
ean function", np.mean(co2)) 





td method", co2.std()) 
td function", np.std(co2)) 


输出 内 容 如 下 。 


od 366.84 

tion 366.84 

od 313.18 

tion 313.18 

hod 337.053525641 
ction 337.053525641 
od 14.9502216262 
tion 14.9502216262 











edian", np.median (co2)) 
core at percentile 50",scoreatpercentile(co2, 50)) 





出 内 容 。 
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Median 335.17 
Score at percentile 50 335.17 





4.2 ”用 NumPy 进行 线性 代数 运算 

















线性 代数 是 数学 的 一 个 重要 分 支 ， 比 如 ， 我 们 可 以 使 用 线性 代数 来 解决 线性 回归 问 
题 。 子 程序 包 numpy.linalg 提供 了 许多 线性 代数 例 程 , 我 们 可 以 用 它 来 计算 矩阵 的 道 或 特 
征 值 ， 求 解 线性 方程 或 计算 行列 式 等 。 对 于 NumPy 来 说 ， 和 矩阵 可 以 用 ndarray 的 一 个 子 
类 来 表示 。 
42.1 用 NumPy 求 矩 阵 的 逆 

在 线性 代数 中 ， 假 设 A 是 一 个 方 阵 或 可 道 矩 阵 ， 如 果 存 在 一 个 矩阵 A 2"， 满 足 矩 阵 AT 


与 原 和 矩阵 A 相 乘 后 等 于 单位 矩阵 工 这 一 条 件 ， 那 么 就 称 矩 阵 A 是 A BE, TEILE 
程 如 下 。 












































































































































子 程序 包 numpy.linalg 中 的 invO 函 数 就 是 用 来 求 矩阵 的 道 的。 下 面 通过 一 个 例子 进行 
说 明 ， 有 具体 步骤 如 下 。 


C1) 利用 matO 函 数 创建 一 个 示例 矩阵 。 


























A = np.mat("2 4 6;4 2 6;10 -4 18") 
print ("A\n", A) 


矩阵 A 的 内 容 如 下 。 


A[[ 2 4 6] [42 6] [10 -4 18]] 



































(2) sROBPERUXÉ, ME ARH invO 子 例 程 来 计算 逆 和 矩阵 了 。 


inverse = np.linalg.inv (A) 
print ("inverse of A\n", inverse) 


逆 和 矩阵 显示 如 下 。 








inverse of A[ 
[-0.41666667 0.66666667 -0.08333333] 
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[ 0.08333333 0.16666667 -0.08333333] 
( 0.25 -0.33333333 0.08333333]] 


提示 

如 果 该 矩阵 是 奇异 的 ， 或 者 非 方 阵 ， 那 么 我 们 就 会 得 

到 LinAlgError 消息 。 如 果 原 意 ， 我 们 也 可 以 通过 手动 
D 来 验证 这 个 计算 结果 。 这 就 当 作 是 留 给 读者 的 一 个 作 

业 吧 。NumPy 库 中 的 pinvO 函 数 可 以 用 来 求 伪 送 矩阵 ， 

它 适 用 于 任意 和 矩阵， 包括 非 方 阵 。 


(3) 利用 乘法 进行 验算 。 
下 面 我 们 将 invO0 函 数 的 计算 结果 乘 以 原 和 矩阵， 验算 结果 是 否 正确 。 
























































print ("Check\n", A * inverse) 








不 出 我 们 所 料 ， 果 然 得 到 了 一 个 单位 矩阵 当然， 前提 是 一 些小 误差 忽略 不 计 )。 











Check 
[[ 1.00000000e+00 0.00000000e+00 -5.55111512e-17] 
[ -2.22044605e-16 1.00000000e+00 -5.55111512e-17] 
[ -8.88178420e-16 8.88178420e-16 1.00000000e+00]] 








我 们 将 上 面 的 计算 结果 减 去 3X3 的 单位 和 矩阵， 会 得 到 求 逆 过 程 中 出 现 的 误差 。 





























print ("Error\n", A * inverse - np.eye(3)) 




















一 般 来 说 ， 这 些 误 差 通常 忽略 不 计 ， 但 是 在 某 些 情 况 下 ， 细 微 的 误差 也 可 能 导致 不 良 
后 果 。 
[I -1.11022302e-16 0.00000000e+00 -5.55111512e-17] 


[ -2.22044605e-16 4.44089210e-16 -5.55111512e-17] 
[ -8.88178420e-16 8.88178420e-16 -1.11022302e-16]] 









































这 种 情况 下 ， 我 们 需要 使 用 精度 更 高 的 数据 类 型 ， 或 者 更 高 级 的 算法 。 前 面 我 们 使 用 
了 numpy.linalg 子 程序 包 的 inv0 例 程 来 计算 矩阵 的 逆 。 下 面 ， 我 们 用 和 矩阵 乘法 来 验证 这 个 
道 矩阵 是 否 符合 我 们 的 要 求 。 
























































import numpy as np 


A = np.mat("2 4 6;4 2 6;10 -4 18") 
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print "AMn", A 


inverse = np.linalg.inv (A) 
print ("inverse of A\n", inverse) 


print ("Check\n", A * inverse) 





print ("Error\n", A * inverse - np.eye(3)) 





4.2.2 用 NumPy 解 线性 方程 组 


和 矩阵 可 以 通过 线性 方式 把 一 个 向 量变 换 成 男 一 个 向 量 ， 因 此 从 数值 计算 的 角度 看 ， 这 
操作 对 应 于 一 个 线性 方程 组 。Numpy.linalg 中 的 solveO 子 例 程 可 以 求解 类 似 Ax = b 这 种 
形式 的 线性 方程 组 ， 其 中 A 是 一 个 矩阵 ，b 是 一 维 或 者 二 维 数 组 ， 而 x 是 未 知 量 。 下 面 我 
们 介绍 如 何 使 用 dot0 函 数 来 计算 两 个 浮 点 型 数组 的 点 积 (dot product? 

这 里 举例 说 明 解 线性 方程 组 的 过 程 ， 有 具体 步 又 如 下 。 

(1) 首先 创建 矩阵 A 和 数组 bo 

AFORE A 和 数组 b 代码 如 下 。 

A = np.mat("1 -2 1;0 2 -8;-4 5 9") 

print ("A\n", A) 


b = np.array([0, 8, -9]) 
print("bWn", b) 





















































































































































FERE A 和 数组 HÆ) b 的 定义 如 图 4- 1 所 示 。 














图 4-1 


(2) 调用 solveO K% 
(3) 接 下 来 ， 用 solve() 函 数 来 解 这 个 线性 方程 组 。 


x = np.linalg.solve(A, b) 





print("Solution", x) 





线性 方程 组 的 解 如 下 。 
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Solution [ 29. 16. 3.] 








(4) 我 们 利用 dot0 函 数 进行 验算 。 
我 们 利用 dotO 函 数 验算 这 个 解 是 否 正 确 。 



































print("CheckMn", np.dot (A , x)) 


结果 不 出 所 料 。 


Check[[ 0. 8. -9.]] 

















前 面 ， 我 们 通过 NumPy 的 linalg 子 程序 包 中 的 solveO 函 数 求 出 了 线性 方程 组 的 解 ， 而 
利用 dotO 函 数 验 算 了 结果 ， 下 面 我 们 把 这 些 代 码 放 到 一 起 。 





















































import numpy as np 


A = np.mat("1 -2 1;0 2 -8;-4 5 9") 
print ("A\n", A) 


b = np.array([0, 8, -9]) 
print ("b\n", b) 





x = np.linalg.solve(A, b) 
print("Solution", x) 





print("CheckWMn", np.dot(A , x)) 


4.3 FB NumPy 计算 特征 值 和 特征 向 量 






































特征 值 是 方程 式 Ax=ax 的 标量 解 Cscalar solutions), HF A 是 一 个 二 维和 矩阵 ， 而 x 是 
一 维 向 量 。 特 征 向 量 实际 上 就 是 表示 特征 值 的 向 量 。 
































提示 

QD 特征 值 和 特征 向 量 都 是 基本 的 数学 概念 并 且 常 用 于 一 
些 重要 的 算法 中 ， 如 主 成 分 分 析 (PCA ) 算法 。PCA 
可 以 极 大 地 简化 大 规模 数据 集 的 分 析 过 程 。 


计算 特征 值 时 , 我 们 可 以 求助 于 numpy.linalg 程序 包 提 供 的 eigvals0 子 例 程 。 函数 eig() 
的 返回 值 是 一 个 元 组 ， 其 元 素 为 特征 值 和 特征 向 量 。 
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我 们 可 以 用 子 程序 包 numpy.linalg 的 eigvals0 和 eig0 函 数 来 获得 矩阵 的 特征 值 和 特征 
向 量 ， 同 时 通过 dot() 函 数 来 验算 结果 。 























import numpy as np 


A= np.mat("3 -2;1 0") 














print ("A\n", A) 

print ("Eigenvalues", np.linalg.eigvals (A)) 
igenvalues, eigenvectors = np.linalg.eig (A) 

print ("First tuple of eig", eigenvalues) 

print ("Second tuple of eig\n", eigenvectors) 


for i in range(len(eigenvalues)): 
print("Left", np.dot(A, eigenvectors([:,i])) 
print("Right", eigenvalues[i] * eigenvectors[:,i]) 























下 面 来 计算 一 个 矩阵 的 特征 值 。 
(1) 我 们 创建 矩阵 。 
下 列 代 码 将 创建 一 个 矩阵 。 

















A = np.mat("3 -2;1 0") 
print ("A\n", A) 


下 面 的 矩阵 即 刚 才 创建 的 矩阵 。 











A[[ 3 -2] [ 1 0]] 

















(2) 利用 eig0 函 数 计算 特征 值 。 
这 时 ， 我 们 可 以 使 用 eig0 子 例 程 








o 





print("Eigenvalues", np.linalg.eigvals(A)) 











该 矩阵 的 特征 值 如 下 。 























Eigenvalues 2.. La] 


(3) 利用 eig0 函 数 取 得 特征 值 和 特征 向 量 。 
利用 eig0) 函 数 ， 可 以 得 到 特征 值 和 特征 向 量 。 注 意 ， 该 函数 返回 的 是 一 个 元 组 ， 它 的 
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第 1 个 元 素 是 特征 值 ， 第 2 个 元 素 为 相应 的 eigenvectors， 以 面向 列 的 方式 排列 。 

















igenvalues, eigenvectors = np.linalg.eig(A) 
print("First tuple of eig", eigenvalues) 
print("Second tuple of eig\n", eigenvectors) 


























特征 值 eigenvalues 和 特征 向 量 eigenvectors 的 值 分 别 如 下 。 

















First tuple of eig [ 2. 1.] 
Second tuple of eig 

[[ 0.89442719 0.70710678] 

[ 0.4472136 0.70710678]] 





(40 验算 结果 。 
通过 dot0 函 数 计算 特征 值 方程 式 Ax = ax 两 边 的 值 ， 我 们 就 可 以 对 结果 进行 验 


















































for i in range(len(eigenvalues)): 
print("Left", np.dot(A, eigenvectors[:,i])) 
print("Right", eigenvalues[i] * eigenvectors[:,i]) 


输出 内 容 如 下 。 





Left [[ 1.78885438] [ 0.89442719]] 
Right [[ 1.78885438] [ 0.89442719]] 
] 
] 





Left [[ 0.70710678] [ 0.70710678] 


Right [[ 0.70710678] [ 0.70710678]] 


4.4 NumPy 随机 数 


使 


























随机 数 常 用 于 蒙特 卡 罗 法 、 随 机 积分 等 方面 。 然 而 ， 真 正 的 随机 数 很 难 获得 ， 实 际 中 













































































的 都 是 伪 随 机 数 。 大 部 分 情况 下 ， 伪 随机 数 就 足以 满足 我 们 的 需求 。 当 然 ， 某 些 特殊 
情况 除外 ,例如 进行 高 精度 的 模拟 实验 时 。 对 于 NumPy， 与 随机 数 有 关 的 函数 都 在 random 


























子 程序 包 中 。 


提示 
| NumPy 核心 的 随机 数 发 生 器 是 基于 梅森 旋转 算法 的 。 ] 
我 们 既 可 以 生成 连续 分 布 的 随机 数 ， 也 可 以 生成 非 连续 分 布 的 随机 数 。 分 布 函数 有 









































个 可 选 的 size 参数 , 它 能 通知 NumPy 要 创建 多 少 个 数字 。 我 们 可 以 用 整 型 或 者 元 组 来 给 这 
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个 参数 赋值 ， 这 时 会 得 到 相应 形状 的 数组 ， 其 值 由 随机 数 填 充 。 离 散 分 布 包 括 几 何 分 布 、 
超 几何 分 布 和 二 项 式 分 布 。 连 续 分 布 包括 正 态 分 布 和 对 数 正 态 分 布 。 


4.41 用 二 项 式 分 布 进行 博弈 


二 项 式 分 布 模拟 的 是 在 进行 整数 次 独立 实验 中 成 功 的 次 数 ， 其 中 每 次 实验 的 成 功 机 会 
一 定 的 。 
假设 我 们 身 在 17 世纪 ， 正 在 对 8 片 币 玩法 下 注 。 当 时 流行 用 9 枚 硬币 来 玩 。 如 果 人 头 
朝 上 的 硬币 少 于 $ 枚 ， 那 么 我 们 将 输 挤 一 个 8 分 币 ; 否则 ， 我 们 就 赢 一 个 8 分 币 。 下 面 ， 
我 们 开始 模拟 这 个 游戏 ， 假 设 我 们 手 上 有 1000 硬币 作为 初始 备 资 。 我 们 将 使 用 random 模块 
提供 的 binomial0 函 数 进 行 模拟 。 
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提示 
完整 的 代码 详 见 本 书 代码 包 中 的 ch-04.ipynb 文件 。 


import numpy as np 
from matplotlib.pyplot import plot, show 


cash = np.zeros(10000) 

cash[0] = 1000 

outcome - np.random.binomial(9, 0.5, size-len(cash)) 
for i in range(1, len(cash)): 


if outcome[i] « 5: 





cash[i] = cash[i - 1] - 1 
elif outcome[i] « 10: 
cash[i] = cash[i - 1] + 1 
else: 
raise AssertionError ("Unexpected outcome " + outcome) 


print(outcome.min(), outcome.max()) 


plot(np.arange(len(cash)), cash) 
show() 


如 果 要 了 解 binomial0 函 数 ， 请 看 以 下 步骤 。 
(1) 我 们 用 binomialO 函 数 。 


我 们 将 数组 初始 化 为 零 , 即 现金 余额 为 零 . 调 用 binomial0 函 数 ,将 size 参数 设 为 10 000, 
这 就 表示 我 们 要 掷 10 000 次 硬币 。 
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cash = np.zeros(10000) 
cash[0] = 1000 
outcome - np.random.binomial(9, 0.5, size-len(cash)) 


(2) 更 新 现金 余额 。 


我 们 利用 抛 郑 硬币 的 结果 来 更 新 cash 数组 ， 显 示 outcome 数组 中 的 最 大 值 和 最 小 值 ， 
保证 没有 罕见 的 异常 值 即 可 。 




















并 
X8 








for i in range(1, len(cash)): 
if outcome[i] « 5: 





cash[i] » cash[i - 1] - 1 
elif outcome[i] « 10: 
cash[i] = cash[i - 1] + 1 
else: 


raise AssertionError("Unexpected outcome " + outcome) 
print(outcome.min(), outcome.max()) 


不 出 所 料 ， 值 为 0 一 9。 
0 9 


(3) 用 matplotlib 绘 出 cash 数组 的 图 像 。 


plot(np.arange(len(cash)), cash) 
show () 




















从 图 4 -2 可 以 看 出 , 现金 余额 的 曲线 类 似 于 随机 行走 ( 即 不 按照 固定 模式 , 而 是 随机 游 走 )。 
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当然 ， 我 们 每 一 次 执行 程序 代码 ， 都 会 得 到 一 个 不 同 的 随机 游 走 。 如 果 想 总 是 得 到 相 
同 的 结果 ， 需 要 给 NumPy 的 随机 数 子 程序 包 中 的 binomial0 函 数 一 个 种 子 值 。 


44.2. 正 态 分 布 采样 


连续 分 布 是 通过 概率 密度 函数 (PDF ) 进行 建 模 的 。 在 特定 区 间 发 生 某 事件 的 可 能 性 
可 以 通过 概率 密度 函数 的 积分 运算 求 出 。NumPy 的 random 模块 提供 了 许多 表示 连续 分 布 


的 函数 ， 如 beta、chisquare、exponential、 f、 gamma、gumbel、 laplace、lognormal、logistic、 
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multivariate normal. noncentral chisquare、noncentral f. normal 等 。 


利用 NumPy 的 random 子 程序 包 中 的 normal0 函 数 ， 可 以 把 正 态 分 布 以 直观 的 形式 图 
示 出 来 。 下 面 给 出 随机 产生 的 数值 的 钟 形 曲 线 和 条 形 图 。 


import numpy as np 






























































import matplotlib.pyplot as plt 
N-10000 


normal values = np.random.normal(size-N) 
dummy, bins, dummy = plt.hist(normal values, np.sqrt(N), normed-True, lw-1) 


sigma = 1 

mu = 0 

plt.plot(bins, 1/(sigma * np.sqrt(2 * np.pi)) * np.exp( - (bins - mu)**2 / 
(2 * sigma**2) ),lw-2) 

plt.show() 















































随机 数 可 以 按照 正 态 分 布 的 要 求生 成 ， 它 们 的 分 布 情况 可 以 用 条 形 图 来 显示 。 如 果 要 
绘制 正 态 分 布 ， 请 执行 以 下 步骤。 


(1) 成 数值 。 
借助 于 NumPy 的 random 子 程序 包 提供 的 normal0 函 数 , 可 以 创建 指定 数量 的 随机 数 。 



































N=100.00 
normal values = np.random.normal(size-N) 














(2) 画 出 条 形 图 和 理论 上 的 PDF. 
下 面 使 用 matplotlib 来 绘 于 图 和 理论 上 的 PDF， 这 里 中 心 值 为 0， 标 准 差 为 1。 


dummy, bins, dummy = plt.hist(normal values, np.sqrt(N), 
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normed-True, lw-1) 
sigma = 1 
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mu = 0 
plt.plot(bins, 1l/(sigma * np.sqrt(2 * np.pi)) * np.exp( - 
(bins - mu)**2 / (2 * sigma**2) ),lw-2) 
plt.show() 


图 4-3 为 我 们 展示 了 著名 的 钟 形 曲线 。 

















44.3 用 SciPy 进行 正 态 检验 





正 态 分 布 被 广泛 用 于 科学 和 统计 学 领域 ， 按 照 中 心 极限 定理 ， 随 着 独立 观测 的 随机 样 
本 数量 的 增加 ， 它 们 会 趋向 呈正 态 分 布 。 正 态 分 布 的 特性 已 经 为 大 家 所 熟知 ， 并 且 它 还 非 
常 便于 使 用 。 不 过 ， 它 需要 满足 许多 必要 条 件 ， 例 如 数据 点 的 数量 要 足够 大 ， 同 时 还 要 求 
这 些 数据 点 必须 是 相互 独立 的 。 工 作 中 ， 我 们 需要 养 成 检查 数据 是 否 符合 正 态 分 布 的 好 习 
惯 。 正 态 检验 的 方法 有 很 多 ， 有 一 些 已 经 在 scipy.stats 程序 包 中 实现 了 。 本 节 将 用 到 这 些 检 
验方 法 ， 样 本 是 取 自 Google 网 站 的 流感 趋势 数据 。 这 里 我 们 对 原始 文件 进行 了 简化 处 理 ， 
只 留 下 日 期 和 来 自 阿 根 廷 的 数据 两 列 ， 下 面 给 出 示例 行 。 

Date,Argentina 

29/12/02, 

05/01/03, 

12/01/03, 

19/01/03, 


26/01/03, 
02/02/03,136 

































































这 些 数据 可 以 在 本 书 代 码 包 中 的 goog_flutrends.csv 文件 中 找到 ， 和 前 面 一 样 ， 这 里 我 
们 也 按照 正 态 分 布 对 这 些 数 据 进 行 抽样 。 得 到 数组 的 大 小 与 流感 趋势 数组 相同 ， 如 果 顺 
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利通 过 正 态 检验 ， 就 以 它 为 金 标准 (the golden standard)。 这 里 的 代码 取 自 代码 包 中 的 
ch-04.ipynb 文件 。 

import numpy as np 

from scipy.stats import shapiro 


from scipy.stats import anderson 
from scipy.stats import normaltest 


flutrends = np.loadtxt("goog flutrends.csv", delimiter-',', usecols-(1,), 











Skiprows-1, converters = (1: lambda s: float(s or 0)}, unpack-True) 
N = len(flutrends) 

normal values = np.random.normal(size-N) 

print("Normal Values Shapiro", shapiro(normal values)) 

print("Flu Shapiro", shapiro(flutrends)) 

print("Normal Values Anderson", anderson(normal values)) 

print("Flu Anderson", anderson(flutrends)) 

print("Normal Values normaltest", normaltest(normal values)) 
print("Flu normaltest", normaltest(flutrends)) 



































作为 一 个 反面 例子 , 下 面 使 用 的 这 个 数组 跟前 面 提 到 的 填 满 零 的 数组 具有 同样 的 大 小 。 
实际 上 ， 当 处 理 一 些小 概率 事件 (如 世界 性 疫情 的 爆发 ) 时 ， 就 可 能 遇 到 这 种 数据 。 

在 这 个 数据 文件 中 ， 一 些 单元 是 空 的 。 当 然 ， 这 种 问题 经 常会 磁 到 ， 所 以 我 们 必须 习 
惯 于 首先 清洗 数据 。 我 们 假定 正确 的 数值 是 零 ， 下 面 使 用 一 个 转换 器 来 填 上 这 些 零 值 。 
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lutrends = np.loadtxt("goog flutrends.csv", delimiter-',', usecols-(1,), 
Skiprows-1, converters = (1: lambda s: float(s or 0)}, unpack-True) 














夏 皮 罗 - 威 尔 克 检验 法 可 以 对 正 态 性 进行 检验 。 相 应 的 SciPy 函数 将 返回 一 个 元 组 ， 其 
中 第 1 个 元 素 是 一 个 检验 统计 量 ， 第 2 个 数值 是 p 值 。 需 要 注意 的 是 ， 这 种 填 满 了 零 的 数 
组 会 引发 和 警告。 事实 上 ， 本 例 中 用 到 的 3 个 函数 在 处 理 这 个 数组 方面 确实 有 困难 ， 同 时 还 
会 引发 警告 。 下 面 是 得 到 的 结果 。 


Normal Values Shapiro (0.9967482686042786, 0.2774980068206787) 
Flu Shapiro (0.9351990818977356, 2.2945883254311397e-15) 

































































































































































这 里 得 到 的 p 值 类 似 于 本 例 中 后 面 的 第 3 个 检验 的 结果 。 分 析 结 果 基 本 上 是 一 样 的 。 
Anderson-Darling 检验 可 以 用 来 检验 正 态 分 布 以 及 其 他 分 布 , 如 指数 分 布 、 对 数 分 布 和 
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KIIK (Gumbel) 分 布 等 。 相 关 的 SciPy 函数 涉及 一 个 检验 统计 量 和 一 个 数组 ， 该 数组 存 












































Wf 15. 10. 5. 2.5 和 1 等 百 分 值 所 对 应 的 临界 值 。 如 果 该 统计 量 大 于 显著 性 水 平 的 临界 
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直 ， 我 们 就 可 以 断定 它 不 具有 正 态 性 。 我 们 将 得 到 下 列 数值 。 


























Normal Values Anderson (0.31201465602225653, array([ 0.572, 0.652, 
0.912, 11.085]), array([ 15. , 10. , Ge y 2:54 1. ])) 

Flu Anderson (8.258614154768793, array([ 0.572, 0.652, 0.782, 0 
1.085]), array([ 15. , 10. , Dus a 24.54 dy s) 


0.782, 


912, 














对 于 这 种 用 零 填 充 的 数组 ， 我 们 没有 什么 好 说 的 ， 因 为 返回 的 统计 量 根本 就 不 是 一 个 
数值 。 就 像 我 们 期 望 的 那样 ， 这 个 金 标 准 数组 是 符合 正 态 分 布 的 。 然 而 ， 流 感 趋势 数据 返 
回 的 这 个 统计 量 大 于 所 有 的 有 关 临 界 值 ， 因 此 我 们 可 以 肯定 它 不 符合 正 态 分 布 。 这 3 个 测 







































































试 函 数 中 ， 这 个 看 起 来 是 最 容易 使 用 的 一 个 。 






































SciPy 的 normaltestO0 函 数 还 实现 了 D'Agostino 检验 和 Pearson 检验 功能 。 该 函数 返回 的 


元 组 和 shapiro0 函 数 一 样 , 也 包括 一 个 统计 量 和 p 值 。 这 里 的 p 值 是 双边 卡 方 概率 (two-sided 















































Chi-squared probability )， 卡 方 分 布 是 另 一 种 著名 的 分 布 ， 这 
验 的 z 分 数 。 偏 度 系数 用 来 表示 分 布 的 对 称 程度 。 因 为 正 态 分 布 是 对 称 的 ， 所 以 人 
为 零 。 峰 度 系数 描述 的 是 分 布 的 形状 〈 尖 峰 、 肥 尾 )。 这 种 正 态 分 布 的 峰 度 系数 为 
峰 度 的 系数 为 0。 以 下 是 本 次 检验 获得 的 数值 。 
















































































Normal Values normaltest (3.102791866779639, 0.21195189649335339) 
Flu normaltest (99.643733363569538, 2.3048264115368721e-22) 








检验 本 身 基于 偏 度 和 峰 度 检 








局 度 系数 
3， 超 额 




















因为 这 里 处 理 的 是 p 值 的 概率 ， 所 以 它 越 大 越 好 ， 最 好 接近 1。 对 于 这 种 用 零 填 充 的 




















数组 ， 会 得 到 很 奇怪 的 结果 。 不 过 ， 因 为 我 们 已 经 得 到 提示 ， 所 以 对 于 这 个 特殊 数组 来 说 ， 


























结果 是 不 可 信 的 。 此 外 ， 如 果 p 值 大 于 等 于 0.35， 我 们 则 认为 它 具 有 正 态 性 。 对 于 金 标准 数 











组 ， 我 们 会 得 到 一 个 更 小 的 数值 ， 这 说 明 我 们 需要 进行 更 多 的 观察 。 这 一 点 作为 作业 ， 请 





读者 自行 练习 。 


4.5 创建 掩 码 式 NumPy 数组 














BE 

















数据 常常 是 凌乱 的 ， 而 且 含 有 空白 项 或 者 无 法 处 理 的 字符 ， 好 在 掩 码 式 数组 可 以 忽略 




















掩 码 。 本 节 我 们 以 Lena Soderberg 的 相片 为 数据 源 ， 而 且 假 设 某 些 数据 已 被 破坏 。 
处 理 掩 码 式 数组 的 完整 代码 ， 取 自 本 书 代码 包 中 的 ch - 04.ipynb 文件 。 








残缺 的 或 无 效 的 数据 点 。numpyma 子 程序 包 提 供 的 掩 码 式 数组 隶属 于 ndarray， 带 有 一 个 


下 面 是 
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import numpy 
import scipy 
import matplotlib.pyplot as plt 


face = scipy.misc.face() 


random mask = numpy.random.randint(0, 2, size-face.shape) 





plt.subplot (221) 
plt.title("Original") 
plt.imshow(face) 
plt.axis('off') 


masked array = numpy.ma.array(face, mask-random mask) 
lt.subplot (222) 


lt.title ("Masked") 
lt.imshow (masked array) 


tO. fg. vg fg 


lt.axis('off') 


lt.subplot (223) 
.title ("Log") 
lt.imshow(numpy.ma.log(face).astype("float32")) 


O 'O 'O 'O 
n 
| 
et 


dt.axcrs('otf"') 


lt.subplot (224) 
.title("Log Masked") 
lt.imshow(numpy.ma.log (masked array).astype("float32")) 





D 'O 'O 'O 
n 
| 
et 


lt.axis('off') 











plt.show() 














最 后 ， 我 们 来 展示 原 图 、 原 图 的 对 数值 、 掩 码 式 数组 及 其 对 数值 。 
(1) 创建 一 个 掩 码 。 














为 了 得 到 一 个 掩 码 式 数组 ， 必 须 规定 一 个 掩 码 。 下 面 将 生成 一 个 随机 掩 码 ， 这 个 掩 码 
的 取 值 非 0 即 1。 





random mask = numpy.random.randint (0, 2, size=face.shape) 


(2) 创建 一 个 掩 码 式 数组 。 
下 面 应 用 该 掩 码 来 创建 一 个 描 码 式 数组 。 


masked array = numpy.ma.array (face, mask=random mask) 
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我 们 得 到 的 图 4-4。 





掩 码 处 理 过 的 原 图 


二 5 

















图 4-4 


我 们 给 NumPy 数组 附加 了 一 个 随机 掩 码 , 这 样 , 与 该 掩 码 相对 应 的 数据 就 会 被 忽略 不 
计 。numpy.ma 子 程序 包 为 处 理 掩 码 式 数 组 提供 了 各 种 所 需 的 函数 ， 这 里 我 们 只 介绍 如 何 生 
成 掩 码 式 数 组 。 


4.6 忽略 负 值 和 极 值 


当 希 望 忽略 负 值 ， 例 如 对 数组 的 值 取 对 数 时 ， 掩 码 式 数组 将 会 非常 有 用 ; 此外， 剔除 
异常 值 时 ， 我 们 也 会 用 到 掩 码 式 数组 。 这 项 工作 是 以 极 值 的 上 下 限 为 基础 的 。 下 面 我 们 以 
来 源 于 美国 职业 棒球 大 联盟 (MLB) 选手 的 薪金 数据 为 例 ， 来 说 明 这 些 技术 的 应 用 方法 。 
经 过 编辑 ， 这 份 数据 仅 保留 了 选手 姓名 和 薪金 两 栏 ， 结 果 放 在 MLB2008.csv 文件 中 ， 读 者 
可 以 从 本 书 代码 包 中 找到 。 


至 于 完整 的 脚本 ， 请 参见 本 书 代码 包 中 的 ch-04.ipynb 文件 
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import numpy as np 
from datetime import date 
import sys 
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import matplotlib.pyplot as plt 


salary -np.loadtxt("MLB2008.csv", delimiter-',', usecols-(1,), skiprows-1, 
unpack-True) 
triples = np.arange(0, len(salary), 3) 





print("Triples", triples[:10], "...") 


signs = np.ones (len(salary)) 


print("Signs", signs[:10], "...") 
signs[triples] = -1 
print('"sSigns'", sions tLOly Pesara w 


ma log = np.ma.log(salary * signs) 











print("Masked logs", ma log[:10], "...") 


dev = salary.std() 

avg = salary.mean() 

inside = np.ma.masked outside(salary, avg - dev, avg + dev) 
print("Inside", inside[:10], "...") 


plt.subplot (311) 


plt.title("Original") 
plt.plot(salary) 
plt.subplot (312) 
plt.title("Log Masked") 
plt.plot(np.exp(ma log)) 





plt.subplot (313) 
plt.title("Not Extreme") 








plt.plot(inside) 


plt.subplots adjust (hspace-.9) 











plt.show() 

以 下 是 对 上 述 命令 的 说 明 。 

(1) 对 负数 取 对 数 

我 们 可 以 对 含有 负数 的 数组 取 对 数 。 首 先 创建 一 个 数组 ， 存 放 可 以 被 3 整除 的 数组 。 








triples = numpy.arange(0, len(salary), 3) 
print("Triples", triples[:10], "...") 
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然后 生成 一 个 元 素 值 全 为 1 且 大 小 与 薪金 数据 数组 相等 的 数组 。 








signs = numpy.ones(len(salary)) 
print("Signs", signs[:10], "...") 




















借助 于 第 2 章 中 学 到 的 技巧 ， 可 以 将 下 标 是 3 的 倍数 的 数组 元 素 的 值 取 反 。 


signs[triples] = -1 
print("Srgns",-sdigns[il10], 5..") 


最 终 就 可 以 对 这 个 数组 取 对 数 了 。 


ma log = numpy.ma.log(salary * signs) 
print("Masked logs", ma log[:10], "...") 








下 面 显 示 相 应 的 薪金 数据 〈 注 意 ， 这 里 有 一 些 数据 的 值 为 NaN )。 














Triples [0369 12 15 18 21 24 27] 
Sions. [| Xu Ll ks Ll de 1 de Iu iae dd 
Signs pala I. l2 Ilo Il. 12)2l.; l1. 1. -1.] 


Masked logs [-- 14.970818190308929 15.830413578506539 -- 
13.458835614025542 15.319587954740548 -- 15.648092021712584 
13.864300722133706 --] 


(2) 忽略 极 值 

此 处 规定 :所 请 异常 值 ， 就 是 在 平均 值 一 个 标准 差 以 下 或 者 在 平均 值 一 个 标准 差 以 上 
的 那些 数值 (这 个 定义 未 必 恰当 ， 只 是 为 了 便于 计算 )。 根据 上 面 的 定义 ， 可 以 利用 下 面 的 
代码 来 屏蔽 极 值 点 。 






















































































dev = salary.std() 

avg = salary.mean() 

inside = numpy.ma.masked outside(salary, avg-dev, avg-*dev) 
print("Inside", inside[:10], "...") 

















以 下 代码 将 显示 前 10 个 元 素 。 


Inside [3750000.0 3175000.0 7500000.0 3000000.0 700000.0 
4500000.0 3000000.0 6250000.0 1050000.0 4600000.0] 














FIEL A 2 f] er US. BOSE UG SECUS RUDUR SR FUR. US ZEILE 
标准 差 的 掩 码 之 后 的 数据 。 

















具体 如 图 4-5 


4.7 小 结 91 


所 示 。 








le7 Original 





1e7 Log Masked 
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300 350 


50 100 150 200 2 








4-5 








numpy.ma 子 程序 包 中 的 函数 可 以 屏蔽 数组 中 被 视 为 无 效 的 元 素 ， 例 如 无 法 应 用 logO 


和 sqrtO 函 数 的 负 值 元 素 。 被 屏蔽 的 值 类 似 于 关系 数据 库 和 程序 设计 中 的 NULL 值 , 对 被 屏 
丙 的 值 进行 运算 时 ， 给 它 的 都 是 一 个 屏蔽 后 的 值 。 





4.7 小 结 
























































本 章 我 们 学 习 了 多 种 NumPy 和 SciPy 子 库 ， 回 顾 了 线性 代数 、 统 计 学 、 连 续 和 离散 分 


布 、 掩 码 式 数组 和 


[随机 数 方面 的 内 容 。 
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更 多 的 技巧 ， 尽 管 有 人 可 能 认为 那些 工作 不 算是 数据 分 析 。 实 际 上 ， 凡 











是 能 够 与 数据 分 析 扯 上 关系 的 东西 ， 我 们 都 需要 关注 。 通 常 ， 我 们 进行 数据 分 析 时 ， 并 不 
是 在 人 员 配备 齐全 的 团队 中 工作 

















， 所 以 没 和 人 来 蔡 我 们 检索 和 存储 数据 。 但 是 ， 如 果 要 想 顺 


畅 地 完成 数据 分 析 流 程 ， 这 些 工 作 又 是 不 可 或 缺 的 ， 所 以 第 5 章 会 对 这 些 工作 进行 详尽 的 


说 明 。 
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现实 中 ， 各 种 形式 的 数据 随处 可 见 。 我 们 不 仅 可 以 从 网 络 、 电 子 邮件 和 FTP 中 取得 
数据 ， 也 可 通过 实验 研究 或 者 市 场 调查 来 获得 数据 。 要 想 全 面 总 结 不 同 格 式 数 据 的 获取 
方法 ， 慌 怕 要 占用 大 量 的 篇 幅 ， 不 是 几 页 就 能 讲 全 的 。 大 部 分 情况 下 ， 数 据 在 分 析 之 前 
或 之 后 我 们 都 需要 将 其 存储 起 来 。 关 于 数据 的 存储 问题 ， 本 章 也 有 讨论 。 第 8 章 将 讲 
解 各 种 数据 库 〈 关 系数 据 库 和 NoSQL 数据 库 ) 及 其 API 的 有 关 知 识 。 本 章 探 讨 的 主题 
如 下 。 

。 利用 NumPy 和 Pandas 对 CSV 文件 进行 写 操作 

。 二 进 制 .npy 格式 和 pickle 格式 

e 利用 PyTables 储存 数据 

e Pandas DataFrame 与 HDF5 仓库 之 间 的 读 写 操作 










































































































































































e 用 pandas 读 写 Excel 


e {€} REST web 服务 和 JSON 





e 使 用 Pandas i: Sj JSON 
。 解析 RSS 和 Atom 订阅 





e 利用 Beautiful Soup 解析 HTML 


5.1 利用 NumPy 和 pandas 对 CSV 文件 进行 写 操作 























前 几 章 我 们 学 过 读 取 CSV. 文件 的 内 容 ， 其 实 ,对 CSV 文件 进行 写 操作 同样 也 很 简单 ， 
不 过 使 用 的 函数 和 方法 不 同 喷 了。 首先， 生成 一 些 数据 ， 将 来 它们 会 以 CSV 格式 保存 。 



































So 
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下 面 的 代码 给 随机 数 生成 器 指定 种 子 并 生成 一 个 3X4 的 NumPy 数组 。 
我 们 将 一 个 数组 元 素 的 值 设 为 NaN。 





np.random.seed(42) 


a = np.random.randn(3, 4) 
a[2][2] = np.nan 
print (a) 


上 述 代码 打印 输出 的 数组 如 下 。 


[[ 0.49671415 -0.1382643 0.64768854 1.52302986] 
[-0.23415337 -0.23413696 1.57921282 20.76743473] 
[-0.46947439 0.54256004 nan -0.46572975]] 





NumPy 的 savetxt() FK Zi I 5; loadtxt0 相 对 应 的 一 个 函数 ， 它 能 以 诸如 CSV 之 类 的 区 隔 
型 文件 格式 保存 数组 。 下 面 的 代码 可 用 来 保存 刚 创 建 的 那个 数组 。 


np.savetxt('np.csv', a, fmt-'$.2f', delimiter-',', header-" £1, #2, #3, 
#4") 





















































上 面 的 函数 调用 中 ， 我 们 规定 了 用 以 保存 数组 的 文件 的 名 称 、 数 组 、 可 选 格式 、 间 隔 
符 《〈 默 认为 空格 符 ) 和 一 个 可 选 的 标题 。 








提示 
| 有 关 格 式 参数 的 详细 说 明 , 请 参考 Python 的 官方 文档 。 ] 
通过 编辑 器 ， 例 如 在 Windows 系统 上 的 Notepad 或 者 cat 命令 ， 即 cat np.csv， 我 们 可 
以 查看 刚才 所 建 的 np.csy 文件 的 具体 内 容 ， 有 具体 如 下 。 
# #1, #2, #3, #4 
0.50,-0.14,0.65,1.52 


-0:23,-0:23,1.58,0.77 
-0.47,0.54,nan,-0.47 












































利用 随机 数组 来 创建 Pandas DataFrame， 代 码 如 下 。 


df = pd.DataFrame (a) 
print (df) 





就 像 你 所 看 到 的 那样 ，Pandas 会 自动 蔡 我 们 给 数据 取 好 列 名 。 


0 1 2 3 
0 0.496714 -0.138264 0.647689 1.523030 
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1 -0.234153 -0.234137 1.579213 0.767435 
2 -0.469474 0.542560NaN -0.465730 





利用 Pandas 的 to_csv() 方 法 可 以 为 CSV. 文件 生成 一 个 DataFrame， 代 码 如 下 。 


df.to csv('pd.csv', float format-'$.2f', na rep-"NAN!") 

















对 于 这 个 方法 ， 我们 需要 提供 文件 名 、 类 似 于 NumpPy 的 savetxt0 函 数 的 格式 化 参数 的 
可 选 格式 串 和 一 个 表示 NaN 的 可 选 字符 串 。pd.csv 文件 的 内 容 如 下 。 





POEZ 

0,0.50,-0.14,0.65,1.52 
1,20523,-0.23,1.58,0;.77 
2,-0.47,0.54,NAN! ,-0.47 


下 面 的 代码 引 自 本 书 代码 包 中 的 ch-05.ipynb 文件 。 





import numpy as np 
import pandas as pd 


np.random.seed(42) 


a = np.random.randn(3, 4) 
a[2][2] » np.nan 





print (a) 

np.savetxt('np.csv', a, fmt-'$.2f', delimiter-',', header-" #1, #2, #3, 
#4") 

df = pd.DataFrame (a) 

print (df) 


df.to csv('pd.csv', float_format='%.2f', na_rep="NAN!") 


5.2 二 进 制 . npy 5 pickle 格式 


























大 部 分 情况 下 , 用 CSV 格式 来 保存 文件 是 一 个 不 错 的 主意 ， 因 为 大 部 分 程序 设计 语言 
和 应 用 程序 都 能 处 理 这 种 格式 ， 交 流 起 来 非常 方便 。 然 而 这 种 格式 有 一 个 缺陷 ， 就 是 它 的 
存储 效率 不 是 很 高 ， 原 因 是 CSV 及 其 他 纯 文 本 格式 中 含有 大 量 空 白 符 。 而 后 来 发 明 的 一 些 
文件 格式 ， 如 zip、bzip 和 gzip 等 ， 压 缩 率 则 有 了 显著 提升 。 

以 下 代码 引 自 本 书 代码 包 中 的 ch-05.ipynb XE, 它 对 各 种 格式 的 存储 利用 情况 进行 了 
比较 。 
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import numpy as np 

import pandas as pd 

from tempfile import NamedTemporaryFile 
from os.path import getsize 


np.random.seed(42) 
a = np.random.randn(365, 4) 


tmpf = NamedTemporaryFile() 
np.savetxt(tmpf, a, delimiter-',') 
print("Size CSV file", getsize(tmpf.name)) 


tmpf = NamedTemporaryFile() 
np.save(tmpf, a) 
tmpf.seek(0) 
loaded = np.load(tmpf) 

print("Shape", loaded.shape) 

print("Size .npy file", getsize(tmpf.name)) 





df = pd.DataFrame (a) 





df.to pickle(tmpf.name) 
print("Size pickled dataframe", getsize(tmpf.name)) 
print("DF from pickleMn", pd.read pickle(tmpf.name)) 
































NumPy 为 自己 提供 了 一 种 专用 的 格式 ， 称 为 npy， 可 以 用 于 存储 NumPy 数组 。 在 i 
步 说 明 这 种 格式 之 前 ， 我 们 先 来 生成 一 个 365 X4 的 NumPy 数组 并 给 各 个 元 素 填充 上 随机 值 。 
这 个 数组 可 以 看 成 是 一 年 中 4 个 随机 变量 的 每 日 观测 值 的 模拟 ， 如 一 个 气象 站 内 传感器 测 到 
的 温度 、 湿 度 、 降 雨量 和 气压 读数 。 这 里 ， 我 们 将 使 用 Python 标准 的 NamedTemporaryFile 来 
存储 数据 ， 这 些 临 时 文件 随后 会 自动 删除 。 


下 面 将 该 数组 存 入 一 个 CSV 文件 并 检查 其 大 小 ， 代 码 如 下 。 

















































































































tmpf = NamedTemporaryFile() 





np.savetxt(tmpf, a, delimiter-',') 
print("Size CSV file", getsize(tmpf.name)) 


这 个 CSV 文件 的 大 小 如 下 。 





Size CSV file 36693 


首先 以 NumPynpy 格式 来 保存 该 数组 ， 随 后 载 入 内 存 并 检查 数组 的 形状 以 及 该 .npy X 
件 的 大 小 ， 有 具体 代码 如 下 。 
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tmpf = NamedTemporaryFile() 
np.save(tmpf, a) 
tmpf.seek(0) 

loaded = np.load(tmpf) 
print("Shape", loaded.shape) 





print("Size .npy file", getsize(tmpf.name)) 























为 了 模拟 该 临时 文件 的 关闭 与 重新 打开 过 程 ， 我 们 在 上 述 代码 中 调用 了 seek0 函 数 。 
数组 的 形状 以 及 文件 大 小 如 下 。 


Shape (365, 4) 
Size .npy file 11760 












































不 出 所 料 ，.npy 文件 的 大 小 只 有 CSV. 文件 的 1/3 左右 。 实 际 上 ， 利 用 Python 可 以 存储 
任意 复杂 的 数据 结构 , 也 可 以 用 序列 化 格式 来 存储 Pandas 的 DataFrame 或 者 Series 数据 结构 。 


























提示 
在 Python F, pickle 是 将 Python 对 象 存 储 到 磁盘 或 其 
他 介质 时 采用 的 一 种 格式 ， 这 个 格式 化 的 过 程 叫 作 序 
列 化 (pickling )。 之 后 我 们 可 以 从 存储 器 中 重建 该 
Python 对 象 ， 这 个 逆 过 程 称 为 反 序 列 化 (unpickling ), 
详情 请 参考 Python 官方 文档 。 序 列 化 技术 经 过 多 年 的 

qp 发 展 ， 已 经 出 现 了 多 种 pickle 协议 。 当 然 ， 并 非 所 有 的 
Python 对 象 都 能 够 序列 化 ; 不 过 , 借助 诸如 dill 之 类 的 
模块 ， 可 以 将 更 多 种 类 的 Python 对 象 序列 化 。 如 有 可 
能 ， 最 好 使 用 cPickle 模块 (标准 Python 发 行 版 中 都 含 
有 此 模块 )， 因 为 它 是 由 C 语言 编写 的 ， 所 以 运行 起 来 
会 更 快 一 些 。 

首先 用 前 面 生 成 的 NumPy 数组 创建 一 个 DataFrame， 接 着 用 to_pickle0 方 法 将 其 写 入 
一 个 pickle 对 象 中 ， 然 后 用 read. pickleQ P IA X A7. pickle 对 象 中 检索 该 DataFrame。 















































df = pd.DataFrame (a) 

df.to pickle(tmpf.name) 

print("Size pickled dataframe", getsize(tmpf.name)) 
print("DF from pickleWMn", pd.read pickle(tmpf.name)) 




















该 DataFrame 经 过 序列 化 后 ， 尺 寸 略 大 于 .npy 文件 ， 这 一 点 我 们 通过 下 列 代码 进行 
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Size pickled dataframe 12244 
DF from pickle 

0 1 2 3 
0 0.496714 -0.138264 0.647689 1.523030 
[TRUNCATED] 
59 -2.025143 0.186454 -0.661786 40.852433 





[365 rows x 4 columns] 


5.3 使 用 PyTables 存储 数据 








层次 数据 格式 (Hierarchical Data Format, HDF) 是 一 种 存储 大 型 数值 数据 的 技术 规范 ， 
起 源 于 超级 计算 社区 ， 目 前 已 经 成 为 一 种 开放 的 标准 。 本 书 将 使 用 HDF 的 最 新 版 本 ,也 就 
是 HDFS， 该 版 本 仅仅 通过 组 〈group) 和 数据 集 (dataset) 这 两 种 基本 结构 来 组 织 数据 。 
数据 集 可 以 是 同类 型 的 多 维 数组 ， 而 组 可 以 用 来 存放 其 他 组 或 者 数据 集 。 也 许 读者 已 经 发 
现 了 ， 这 里 的 “组 ” 跟 层 次 式 文 件 系 统 中 的 “目录 ”非常 像 。 

HDF5 最 常见 的 两 个 主要 Python 程序 库 如 下 。 


e h5y 























































































































e PyTables 
本 例 中 使 用 的 是 PyTables。 不 过 ， 这 个 程序 库 需 要 用 到 的 一 些 依赖 项 如 下 。 
e NumPy: 第 1 章 中 已 经 安装 好 了 NumPy。 


。 numexpr: 该 程序 包 在 计算 包含 多 种 运算 的 数组 表达 式 时 ， 其 速度 要 比 NumPy 快 许 
多 倍 。 
e HDF5. 










































































提示 
如 果 使 用 HDFS5 的 并 行 版 本 , 则 需要 安装 MPI。 HDFS 可 以 
从 网 站 下 载 ， 然 后 运行 下 列 命令 进行 安装 。 这 个 安装 过 
qp 程 可 能 需要 几 分 钟 的 时 间 。 具 体 命令 如 下 。 
$ gunzip < hdf5-X.Y.Z.tar.gz | tar xf - 
$ cd hdf£5-X.Y.Z 
$ make 
$ make install 
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一 般 情 况 下 ， 我 们 使 用 的 程序 包 管 理 器 都 会 提供 HDF5， 不 过 我 们 最 好 还 是 选择 目前 
最 新 的 稳定 版 本 (stable version)。 截 至 编写 本 书 期 间 为 止 ， 最 新 的 版 本 号 是 1.8.12。 
据 Numexpr 自称 ， 它 在 某 些 方面 的 运算 速度 要 比 NumPy 快 得 多 ， 因 为 它 支 持 多 线程 ， 
而 且 自 己 的 虚拟 机 是 C 语言 实现 的 。 此 外 ，PyPi 也 提供 了 Numexpr 和 PyTables， 所 以 我 们 
可 以 利用 pip 命令 来 安装 它们 ， 具 体 如 下 。 








c 































































































$ pip3 install numexpr tables 
































此 外 , 我 们 需要 生成 一 些 随 机 数 并 用 它们 来 给 一 个 NumPy 数组 赋值 。 下 面 我 们 创建 一 
个 HDF5 文件 并 把 这 个 NumPy 数组 挂 载 到 根 节点 上 ， 人 代码 如 下 。 








filename = "pytable demo.h5" 
h5file = tables.openFile(filename, mode-'w', ) 
root = h5file.root 





h5file.createArray(root, "array", a) 
h5file.close() 














读 取 这 个 HDF5 文件 并 显示 文件 大 小 ， 代 码 如 下 。 


h5file = tables.openFile(filename, "r") 
print(getsize(filename)) 














我 们 看 到 ， 文 件 大 小 为 13 824。 在 读 取 一 个 HDF5 文件 并 获得 该 文件 的 句柄 后 ， 就 可 
以 通过 常规 方式 来 遍历 文件 ， 从 而 找到 我 们 所 需 的 数据 。 因 为 这 里 只 有 一 个 数据 集 ， 所 以 
遍历 起 来 非常 简单 。 下 面 的 代码 将 通过 iterNodesO fll read(0) 方 法 取 回 NumPy 数组 。 
























































for node in h5file.iterNodes (h5file.root): 
b = node.read() 
print(type(b), b.shape) 





该 数据 集 的 形状 和 类 型 果然 不 出 我 们 所 料 ， 显 示 如 下 。 








«class 'numpy.ndarray'» (365, 4) 





以 下 代码 取 自 本 书 代 码 包 中 的 ch-05.ipynb 文件 。 
import numpy as np 
import tables 


from os.path import getsize 


np.random.seed(42) 
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a = np.random.randn (365, 4) 
filename = "pytable demo.h5" 


h5file = tables.open file( filename, mode-2'w', ) 
root = h5file.root 





h5file.create array(root, "array", a) 
h5file.close() 


h5file = tables.open file(filename, "r") 
print(getsize(filename)) 








for node in h5file.root: 
b = node.read() 
print(type(b), b.shape) 


h5file.close() 
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HDFStore 类 可 以 看 作 是 Pandas 中 负责 HDF5 数据 处 理 部 分 的 一 种 抽象 。 借 助 一 些 随 机 
数据 和 临时 文件 ， 我 们 可 以 很 好 地 展示 这 个 类 的 功能 特性 ， 有 具体 步骤 如 下 。 


我 们 将 临时 文件 的 路 径 传递 给 HDFStore 的 构造 函数 ， 然 后 创建 一 个 仓库 。 


filename = "pytable df demo.h5" 

















store = pd.io.pytables.HDFStore (filename) 
print (store) 














上 述 代 码 将 打印 输出 该 仓库 的 文件 路 径 及 其 内 容 ， 不 过 此 刻 它 还 没有 任何 内 容 。 


«class 'pandas.io.pytables.HDFStore'» 
File path: pytable df demo.h5 
Empty 














HDFStore 提供 了 一 个 类 似 字典 类 型 的 接口 ， 例 如 我 们 可 以 通过 Pandas 中 DataFrame 的 
查询 键 来 存储 数值 。 为 了 将 包含 随机 数据 的 一 个 DataFrame 存储 到 HDFStore 中 ,可 以 使 用 
下 列 代码 。 


























store['df'] = df 
print (store) 


现在 ， 该 仓库 存放 了 如 下 数据 。 
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«class 'pandas.io.pytables.HDFStore'» 
File path: pytable df demo.h5 
frame (shape-»[365,4]) 














我 们 可 以 通过 3 种 方式 来 访问 DataFrame， 分 别 是 使 用 get(O 方 法 访问 数据 ， 利 用 类 似 
字典 的 查询 键 访问 数据 ， 或 者 使 用 点 运算 符号 来 访问 数据 。 下 面 我 们 分 别 进行 演示 。 


























print("Get", store.get('df').shape) 
print("Lookup", store['df'].shape) 
print("Dotted", store.df.shape) 























该 DataFrame 的 形状 同样 也 可 以 通过 3 种 不 同 的 方式 进行 访问 。 








Get (365, 4) 
Lookup (365, 4) 
Dotted (365, 4) 

















为 了 删除 仓库 中 的 数据 ， 我 们 既 可 以 使 用 remove0 方 法 ， 也 可 以 使 用 del 运算 符 。 当 
然 ， 每 个 数据 项 只 能 删除 一 次 。 下 面 我 们 从 仓库 删除 DataFrame， 上 有 具体 代码 如 下 。 





























del store['df'] 
print("After del\n", store) 


这 个 仓库 再 次 变 空 。 


After del 
«class 'pandas.io.pytables.HDFStore'» 
File path: pytable df demo.h5 

Empty 














ES 


BTE is open 的 作用 是 指出 仓库 是 否 处 于 打开 状态 。 为 了 关闭 一 个 仓库 ， 可 以 调用 close 
方法 。 下 面 代码 展示 了 关闭 仓库 的 方法 并 针对 仓库 的 状态 进行 了 相应 的 检查 。 






























































print("Before close", store.is open) 
store.close() 
print("After close", store.is open) 





一 旦 关闭 ， 该 仓库 就 会 退出 打开 状态 ， 显 示 如 下 。 





Before close Tru 
After close Fals 





























为 读 写 HDF 数据 ，Pandas 还 提供 了 两 种 方法 ， 一 种 是 DataFrame 的 to hdf7735, 5 








| 











df.to hdf (tmpf.name, 


5.4 Pandas DataFrame 5 HDFS5 仓库 之 间 的 读 写 操作 





是 顶级 的 read hdf()EE A. FE 

















'data', 
print (pd.read hdf (tmpf.name, 











示例 代码 展示 了 调用 to_hdfO 方 法 读 取 数 据 的 过 程 





format='table') 
'data', where-['index»363'])) 











用 于 读 写 操作 的 应 











格式 串 。 这 里 的 格式 有 两 种 ， 一 种 
速度 要 更 快 一 些 ， 缺 点 是 无 法 追加 数 寺 





























是 固定 格式 ， 男 一 种 是 表格 格式 。 固 定格 式 的 优 






































的 Table 结构 ， 可 以 对 数据 ; 
数据 。 








0 1 
364 0.753342 0.381158 
[1 rows x 4 columns] 








行 搜索 和 选择 操作 。 下 面 是 通过 查询 DataFrame 得 
2 3 
1.289753 0.673181 


以 下 代码 引 自 本 书 代 码 包 中 的 ch-05.ipynb 文件 。 





import numpy as np 
import pandas as pd 


np.random.seed(42) 


a = np.random.randn(365, 4) 
filename = "pytable df demo.h5" 
store = 


print (store) 


df = 
store['df'] = 
print (store) 


pd.DataFrame (a) 
df 


print("Get", 
print ("Lookup", 
print( "Dotted", 
del store['df'] 


print ("After del\n", 


print ("Before close", 
store.close() 
print("After close", 
df.to hdf('test.h5', 








pd.io.pytables.HDFStore (filename) 


store.get('df').shape) 
store['df'].shape) 
store.df.shape) 


store) 


store.is open) 


store.is open) 


'data', 
print (pd.read hdf('test.h5', 


format-'table') 
'data', where-['index»363'])) 
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程序 接口 的 参数 包括 文件 路 径 、 仓库 中 组 的 标识 符 以 及 可 选 的 





点 是 


四 ， 也 不 能 进行 搜索 。 表 格格 式 相当 于 PyTables 
到 的 
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5.5 使 用 Pandas 读 写 Excel 文件 








现实 生活 中 ， 许 多 重要 数据 都 是 以 Excel 文件 的 形式 存放 的 。 当 然 ， 如 果 需 要 ， 我 们 
也 可 以 将 其 转换 为 可 移植 性 更 高 的 诸如 CSV 之 类 的 格式 。 不 过 ， 利 用 Python 来 操作 Excel 
会 更 加 方便 。 在 Python 的 世界 里 , 为 实现 同一 目标 的 项 目 通常 不 止 一 个 , 如 提供 Excel 
VO 操作 功能 的 项 目 就 是 如 此 。 只 要 安装 了 这 些 模块 ， 我 们 就 能 让 Pandas 具备 读 写 Excel 
文件 的 能 力 。 只 是 这 些 方面 的 说 明文 档 不 是 很 完备 ， 其 原因 是 Pandas 依赖 的 这 些 项 目 往 往 
各 自 为 战 并 且 发 展 极为 迅猛 。 这 些 Pandas 程序 包 对 于 Excel 文件 也 很 挑剔 ， 要 求 这 些 文件 
的 后 级 必须 是 .xls 或 者 .xlsx;， 否则 就 会 报错 。 






































NK 

















































































































ValueError: No engine for filetype: '' 





好 在 这 个 问题 非常 容易 解决 ， 举 例 来 说 ， 当 创建 一 个 临时 文件 时 ， 只 提供 合适 的 后 绥 
即 可 。 如 果 需 要 的 多 个 模块 一 个 都 没有 安装 的 话 ， 就 会 收 到 如 下 的 错误 信息 


























ImportError: No module named openpyxl.workbook 


























只 要 用 下 面 的 命令 安装 openpyxl， 就 可 以 杜绝 这 样 的 错误 提示 ， 上 其 体 命令 如 下 。 

















$ pip3 install openpyxl xlsxwriter xlrd 














模块 openpyxl 源 于 PHPExcel， 它 提供 了 针对 .xlsx 文件 的 读 写 功能 


小 技巧 
如 果 由 于 某 种 原因 ， 无 法 使 用 pip install 命令 安装 模 
人 块 ， 我 们 可 以 参考 openpyxl 网 站 上 介绍 的 其 他 安装 

此 外 ， 模 块 xlsxwriter 也 需要 读 取 .xlsx 文件 ， 而 模块 xlrd 能 用 来 析 取 .xls 和 .xlsx 文件 
中 的 数据 。 

下 面 我 们 先 来 生成 用 于 填充 Pandas 中 DataFrame 的 随机 数 ， 然 后 用 这 个 DataFrame 创 
建 一 个 Excel 文件 ,接着 再 用 Excel 文件 重建 DataFrame 并 通过 mean() 方 法 来 计算 其 平均 值 。 
对 于 Excel 文件 的 工作 表 ， 我 们 既 可 以 为 其 指定 一 个 从 0 开始 计数 的 索引 ， 也 可 以 为 其 基 
定 一 个 名 称 。 以 下 代码 引 自 本 书 代码 包 中 的 ch-05.ipynb 文件 。 








































































































ES 





import numpy as np 
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import pandas as pd 


np.random.seed(42) 
a = np.random.randn(365, 4) 





filename-"excel demo.xlsx" 
df = pd.DataFrame (a) 
print(filename) 





df.to excel(filename, sheet name-'Random Data') 





print("Means Mn", pd.read excel(filename, 'Random Data').mean())) 









































我 们 通过 to_excel(0) 方 法 创建 Excel 文件 ， 有 具体 如 下 。 


df.to excel (tmpf.name sheet name-'Random Data') 











下 面 我 们 使 用 顶级 read_excel0 函 数 来 重建 DataFrame， 代 码 如 下 。 


print ("Means\n", pd.read excel(tmpf.name, 'Random Data').mean()) 


下 面 我 们 输出 平均 值 。 








/var/folders/k /xx xz6xj0hx627654s3vld440000gn/T/tmpeBEfnO.xlsx 
Means 


0 0.037860 
1 0.024483 
2 0.059836 
3 0.058417 


dtype: float64 


5.6 使 用 REST Web 服务 和 JSON 


构 风 格 。 对 于 HTTP (S) 来 说 ， 可 以 使 用 GET、POST、PUT 和 DELETE 方法 ， 























表述 性 状态 转移 (Representational State Transfer; REST) Web 服务 采用 的 是 REST 4 























对 应 数据 项 的 创建 、 请 求 、 更 新 及 删除 操作 。 
















































































ES 














使 用 REST 风格 的 API 时 ， 数 据 项 是 通过 统一 资源 标识 符 CURD 进行 标识 的 。 虽 
然 REST 并 非 官 方 标 准 ， 但 是 其 应 用 极为 广泛 ， 所 以 我 们 必须 对 它 进行 深入 了 解 








。Web 服 





务 经 常 使 用 JavaScript 对 象 表 示 法 (JavaScript Object Notation, JSON) 来 交换 数据 。 使 用 


这 



































' 格 式 时 ， 数 据 会 按照 JavaScript 表示 法 的 要 求 进行 加 工 。 这 种 表示 法 类 似 于 Python 的 


列表 和 字典 的 语法 。 利 用 JSON, 通过 组 合 列表 和 字典 ， 可 以 定义 任意 复杂 的 数据 。 为 了 解 
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释 这 一 点 ， 我 们 将 使 用 一 个 相当 于 字典 类 型 的 JSON 字符 串 为 例 进行 说 明 ， 这 个 字符 串 用 
se IP 地 址 的 地 理 位 置信 息 。 









































("country":"Netherlands","dma code":"0","timezone":"Europe\/Amsterdam 
","area code":"0","ip":"46.19.37.108","asn":"AS196752","continent cod 
e":"EU","isp":"Tilaa  V.O.F.","longitude":5.75,"latitude":52.5,"country 
code":"NL","country code3":"NLD") 




















以 下 是 引 自 ch-5.ipynb 文件 中 的 代码 。 





import json 


json str - 
'("country":"Netherlands"," "dma code":"0","timezone":"EuropeV/Amsterdam", 
"area code":"0","ip":"46.19.37.108", "asn":"AS196752", "continent code":"EU","is 











p" $ "ITlaà 
V.O.F.","longitude":5.75,"latitude":52.5,"country code":"NL","country code3 
"W $ "NLD" } Lu 

data = json.loads(json str) 


print("Country", data["country"]) 
data["country"] = "Brazil" 
print (json.dumps (data)) 

















Python 为 我 们 提供 了 一 个 简单 易 用 的 标准 JSON API。 下 面 我 们 用 loadsO 函 数 来 解析 
JSON 字符 串 。 





data = json.loads (json_str) 











下 列 代码 可 以 用 来 访问 变量 country 的 值 。 














print "Country", data["country"] 








YS 


上 述 代 码 的 输出 结果 如 下 。 


Country Netherlands 





IZ 
o 





我 们 修改 变量 country 的 取 值 并 利用 该 新 JSON 数据 来 创建 一 个 字符 是 








data["country"] = "Brazil" 
printjson.dumps (data) 




















得 到 的 这 个 JSON 的 country 变量 具有 一 个 新 值 。 与 字典 类 似 ， 这 里 数据 项 之 间 的 顺序 
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j Ee aN 
是 任意 的 。 
["Llongitude"; 5.75, "rp"; 69 
"area code": "O0", "dma code": "0", "country code3": "NLD", 
"continent code": "EU", "country code": "NL", "country": "Brazil", 
"latitude": 52.5, "timezone": "Europe/Amsterdam", "asn": "AS196752"] 





5.7 使 用 Pandas 读 写 JSON 


利用 上 面 例 子 中 的 JSON 

















pandas 提供 的 read_json() 
结构 。 





以 下 示例 代码 引 自 本 





import pandas as p 


json str = 





d 


Du Jr 


子 付 EP , 


代码 包 中 的 ch-05.ipynb 文件 。 


Tar 





uH 





可 以 轻而易举 地 创建 一 个 pandas Series. XX 
可 以 用 来 创建 pandas Series 或 者 pandas DataFrame 数据 














T 





'("country":"Netherlands"," "dma code":"0","timezone":"EuropeV/Amsterdam", 
"area code":"0","ip":"46.19.37.108", "asn":"AS196752", "continent code":"EU","is 


p":"Tilaa 





V.O.F.","longitude":5.75,"latitude":52.5,"country code":"NL","country code3 


"IUNLDU)' 


data = pd.read json(json str, typ-'series') 


print ("Series\n", 


data) 


data["country"] = "Brazil" 





print ("New Series\ 





uj 





n", data.to json()) 














调用 read_json0) 函 数 时 , 既 可 以 向 其 传递 一 个 JSON 字符 串 , 也 可 以 为 其 指定 一 个 JSON 














文件 的 路 径 。 上 面 的 例子 中 ， 我 们 是 利用 JSON 字符 串 来 创建 pandas Series 的 。 





data = pd.read json(json str, typ-'series') 


print("Series Nn", 


L 





在 得 到 的 Series H 


Series 
area code 
asn 


continent code 


data) 





a 





， 键 是 按 字母 顺序 排列 的 。 


0 
AS196752 
EU 
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country 
country code 
country code3 
dma code 

ip 

ispTilaa V.O.F. 
latitude 
longitude 
timezone 


dtype: object 














3411 





data["country"] 


print ("New Series Mn", 


在 这 个 





New Series 
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Netherlands 
NL 

NLD 

0 
46.19.37.108 


52:5 
Ss £9 
Europe/Amsterdam 











"Brazil" 
data.to json()) 





再 次 修改 country 的 值 并 用 to_json0 方 法 将 其 从 pandas Series 转换 成 JSON 字 


新 JSON 字符 串 中 ， 键 的 顺序 被 保留 了 下 来 ， 不 过 ，country 的 值 却 变 了 。 





("area code":"0","asn":"AS196752", "continent code":"EU","country":"Brazil", 
"country code":"NL","country code3":"NLD","dma code":"0","ip":"46.19.37.108 


"T "isp" :;"Tilaa 


V.O.F.","latitude":52.5,"longitude":5.75,"timezone":"EuropeV/Amsterdam"j 


5.8 解析 RSS 和 Atom 订阅 


简易 信息 聚合 
| 


HR 














Li 











Python 的 feedp 





(Really Simple Syndication; RSS) 和 Atom 订阅 常用 于 订 
然 这 两 种 订阅 的 类 型 不 同 ， 却 都 遵循 发 布 订阅 模式 。 比 如 ，Packt 出 版 











阅 博客 和 新 闻 。 
网 站 就 提供 了 








公 


il 

















$ pip3 install feedparser 





解析 完 RSS 文件 后 





Publishing 网 站 的 订阅 源 并 打印 内 容 数量 


import feedparser 


， 就 可 以 通过 句点 来 访问 基础 








o 


as fp 


书籍 和 文章 方面 的 订阅 功能 ， 只 要 用 户 订 阅 后 ， 束 能 与 网 站 内 容 的 最 新 更 
arser 模块 的 帮助 下 ， 我 们 无 需 了 解 相关 的 技术 细节 ， 就 能 处 理 RSS 和 Atom 
订阅 。 要 想 安装 这 个 feedparser 模块 ， 可 以 使 月 


254 

















所 保持 同步 。 在 








5 




















H FZI pip 命令 。 





BI. 以 下 代码 将 解析 Packt 
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rss = fp.parse("http://www.packtpub.com/rss.xml") 





print("4 Entries", len(rss.entries)) 














内 容 的 数量 如 下 ， 不 过 ， 每 次 运行 程序 时 该 数字 都 可 能 发 生变 化 。 
# Entries 10 


N 


这 里 可 以 显示 含有 Python 这 个 单词 的 条 目的 标题 和 摘要 ， 代 码 如 下 。 



































for i, entry in enumerate(rss.entries): 





if "Python" in entry.summary: 
print(i, entry.title) 
print (entry.summary) 














就 本 次 运行 而 言 ， 结 果 如 下 。 需 要 注意 的 是 ， 运 行 该 代码 时 ， 内 容 会 有 所 不 同 ， 如 果 
过 滤 条 件 限 制 太 严格 ， 还 可 能 一 条 符合 要 求 的 内 容 也 没有 。 

















42 Create interactive plots with matplotlib using Pack't new book and 
eBook 

About the author: Alexandre Devert is a scientist. He is an 
enthusiastic Python coder as well and never gets enough of it! He used to 
teach data mining, software engineering, and research in numerical 
optimization. 

Matplotlib is part of the Scientific Python modules collection. It 
provides a large library of customizable plots and a comprehensive set of 
backends. It tries to make easy things easy and make hard things possible. 
It can help users generate plots, add dimensions to plots, and also make 
plots interactive with just a few lines of code. Also, matplotlib 
integrates well with all common GUI modules. 


以 下 代码 引 自 本 书 代 码 包 中 的 ch-05.ipynb 文件 。 





import feedparser as fp 


rss = fp.parse("http://www.packtpub.com/rss.xml") 








print("4 Entries", len(rss.entries)) 





for i, entry in enumerate(rss.entries): 
if "Java" in entry.summary: 
print (i, entry.title) 
print (entry.summary) 
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与 存储 


5.9 使 用 Beautiful Soup 解析 HTML 


超 文本 标记 语言 (Hypertext Markup Language; HTML) 是 用 于 创建 网 页 文档 的 一 种 基 
























































标签 以 树 状 结构 组 织 在 一 起 。 

















础 性 技术 。HTML 由 各 种 元 素 组 成 ， 而 这 些 元 素 由 尖 括 号 中 的 所 谓 标签 组 成 ， 如 <html>。 标 
签 通常 是 成 对 出 现 的 ， 标 签 对 中 的 第 1 个 标签 是 开始 标签 ， 第 2 个 标签 是 结束 标签 ， 这 些 




















HTML 的 相关 规范 草案 于 1991 年 由 Berners-Lee 公布 ， 当 时 

















仅 包 括 18 个 HTML 元 素 。HTML 的 正式 定义 出 现在 1993 年 ， 是 由 国际 互联 网 工程 任务 组 

















(Internet Engineering Task Force, IETF) 颁布 的 。1995 Œ, IETF 发 布 HTML 2.0 标准 ; 2013 











年 ， 又 发 行 了 最 新 的 HTML 版 本 ， 即 HTMLS. 5 XHTML 和 XML 比较 ，HTML 不 是 一 


个 非常 严格 的 标准 。 

















我 们 知道 ， 现 代 浏 览 器 容错 性 已 经 有 了 长 足 进 步 ， 另 一 方面 ， 这 也 为 Web 页 面 中 不 符 


















































合 标准 的 非 结构 化 数据 的 洲 4 














提供 了 温床 .我 们 不 仅 可 以 将 HTML 视 为 一 个 硕大 的 字符 串 ， 














而 且 可 以 运用 正则 表达 式 对 其 执行 各 种 字符 串 操 作 。 不 过 ， 这 种 方法 仅 适 用 于 比较 简单 的 











项 目 。 




















工作 中 ， 笔 者 曾经 接触 过 专业 级 别 的 网 络 信息 搜集 项 目 ， 经 验证 明 我 们 需要 更 加 先 














进 的 方法 。 在 现实 世界 中 ， 我 们 有 时 需要 以 编程 的 方式 来 提交 HTML 表单 ， 尤 其 是 在 登 








录 、 切 换 页 面 和 处 理 Cookie 




















时 。 当 我 们 从 网 页 上 抓 取 数 据 时 ， 常 见 的 问题 是 我 们 无 法 完 


全 控制 所 抓 取 的 页 面 ， 因 此 经 常 需要 修改 自己 的 代码 。 此 外 ， 有 些 网 站 的 所 有 者 不 喜欢 
别人 以 编程 的 方式 访问 其 内 容 ， 所 以 他 们 会 处 心 积 虑 地 设置 各 种 障碍 ， 有 的 甚至 直接 禁 









































方法 。 





j 这 种 访问 方式 。 考 虑 到 这 些 因 素 ， 我 们 应 该 优先 考虑 诸如 REST API 之 类 的 信息 搜集 
















































































如 果 结 果 只 能 通过 抓 取 页 面 的 方式 来 搜集 信息 , 建议 使 用 Python 的 Beautiful Soup API。 
这 个 应 用 程序 接口 不 仅 可 以 从 HTML 文件 中 抽取 数据 ， 同 时 还 支持 XML 文件 。 对 于 新 的 
项 目 来 说 ， 建 议 使 用 Beautiful Soup 4， 因 为 Beautiful Soup 3 目前 已 经 停止 开发 了 。 我 们 可 
以 使 用 如 下 命令 来 安装 Beautiful Soup 4» easy. install 命令 的 用 法 与 此 类 似 。 



















































































$ pip3 install beautifulsoup4 lxml 








如 果 这 种 方法 行 不 通 , 还 可 以 把 自己 的 代码 跟 Beautiful Soup 直接 封装 到 一 起 。 为 了 演 





























示 如 何 解析 HTML， 本 书 的 代码 包 中 提供 了 一 个 名 为 loremIpsum.html 的 页 面 文件 ， 该 文件 
是 网 站 http://loripsum.net/ 的 生成 程序 制作 的 。 此 后 ， 我 们 对 这 个 文件 进行 了 一 些 修 改 。 文 
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件 的 内 容 取 自 公元 前 1 世纪 西 塞 罗 的 拉丁 文 作品 ， 这 是 创建 网 站 模型 的 一 种 惯用 形式 。 
图 5-1 中 显示 的 是 网 页 的 上 面部 分 。 


























" * «htmb-«head- 
Ne in odium veniam, si amicum destitero. «title»Generated Lorem Ipsum«/title» 
. E <head> 

tueri. «e 

i i-Ne in odium veniam, si amicum destitero tueri.«/h1- 
Generated with the generator from loripsum.net ~ _ 

T sqeGenerated with the generator from <a hrefz"hitp-//loripsum.net 
Versions —— *»loripsum.net«/az 
Development. o Re «pe eh 3» Versions«/h3» 
OC «div class-"tile'z 

OUS ly 2008 p «h4»Development«/h4- 

0.10.1 - July 2014<br> 
Official Release 一 一 ^ s 

b <div> 


0.10.0 June 2014 RR em «div class="tile" id-"official» 


(pe «h4»Oflicial Releasec/h4» 
— 0.10.0 June 2014<br> 
— <div> 
0.09.1 June 2013 IDE 


Previous Release — — 


: den " an «div classs"notile"» 
Lorem ipsum dolor sit amet, consectetur adipiscing clit. Duo Reges: constructio interrete. To <h4>Previous Releasc«/h» 


Neque solum ca communia, vcrum ctiam paria csse dixerunt. Qui convenit? Fatebuntur Stoici 0.09.1 June 2013«br- 
hacc omnia dicta esse praeclare, ncque cam causam Zenoni desciscendi fuissc. Est cnim tanti <div> 











5-1 

















本 例 中 用 的 工具 是 Beautiful Soup 4 和 Python 常规 的 正则 表达 式 程 序 库 。 
以 下 代码 的 作用 是 导入 程序 库 。 











am 








from bs4 import BeautifulSoup 
import re 





然后 我 们 打开 HTML 文件 并 新 建 一 个 BeautifulSoup 对 象 ， 有 具体 代码 如 下 。 








soup = BeautifulSoup(open('loremIpsum.html')) 











通过 使 用 句点 标记 法 ， 我 们 可 以 方便 地 访问 第 一 个 <div> 元 素 ， 这 个 元 素 的 作用 
元 素 并 提供 样式 。 访 问 第 1 个 div 元 素 的 代码 如 下 。 


inl 
Mw 
ic 
SO 





print ("First div\n", soup.div) 





输出 内 容 是 一 个 HTML 片段 ， 其 中 可 以 看 到 第 1 个 <div> 标 签 及 其 所 含 内 容 。 





First div 
<div class="tile"> 
<h4>Development</h4> 

0.10.1 - July 2014<br/> 
</div> 
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提示 
对 于 这 个 div 元 素来 说 ， 其 类 属性 的 值 为 tle， 这 个 属 
性 的 作用 是 为 该 元 素 指 定 CSS 样式 。 层 县 样式 表 
(Cascading Style Sheets, CSS) 是 一 种 描述 网 页 元 素 

Li) 样式 的 语言 。 通 过 CSS 类 可 以 方便 地 控制 Web 页 面 的 
外 观 ， 因 此 CSS 规范 的 应 用 极为 广泛 。 有 了 CSS. R 
们 可 以 方便 地 定义 元 素 的 布局 、 字 体 和 颜色 ， 这 对 于 
内 容 和 外 观 的 隔离 帮助 很 大 。 而 内 容 和 外 观 的 隔离 ， 
又 让 设计 工作 变 得 更 加 简单 、 清 晰 

我 们 可 以 像 访问 字典 那样 来 访问 标签 的 属性 , 下 面 以 输出 <div> 标 签 的 类 属性 的 值 为 例 
进行 说 明 。 








print("First div class", soup.div['class']) 
First div class ['tile'] 





























我 们 利用 点 号 ， 可 以 访问 任意 深度 的 元 素 。 下 面 以 输出 首 个 <dfn> 标 签 中 的 文本 为 例 进 
行 说 明 。 





print("First dfn text", soup.dl.dt.dfn.text) 























zu 
= 
r 


出 的 是 一 行 拉丁 文字 【英文 的 意思 是 : Solisten, I pray). 


First dfn text Quareattende, quaeso 


























有 时 ， 我 们 只 对 HTML 页 面 中 的 超 链接 感 兴趣 ， 例 如 我 们 可 能 只 想 知道 哪些 页 面具 有 
外 向 链接 。 在 HTML 文档 中 ， 链 接 是 用 <a> 标 签 定 义 的 ， 通 过 这 个 标签 的 href 属性 ， 就 能 
找到 外 向 链接 的 URL. BeautifulSoup 类 中 有 一 个 简单 易 用 的 find_all0) 方 法 ， 后 面 将 会 经 常 
到 ; 通过 这 个 方法 ， 我 们 可 以 找到 文档 中 所 有 的 超 链接 。 

























































































for link in soup.find all('a'): 
print("Link text", link.string, "URL", link.get('href')) 




















这 里 ， 我 们 从 文档 中 找到 了 以 下 3 个 URL 相同 但 文字 相 异 的 链接 。 


Link text loripsum.net URL http://loripsum.net/ 
Link text Potera tautem inpune; URL http://loripsum.net/ 
Link text Is es profecto tu. URL http://loripsum.net/ 














find_all0 方 法 就 介绍 到 这 里 ， 下 面 演示 如 何 访问 所 有 <div> 标 签 中 的 内 容 。 
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for i, div in enumerate (soup('div')): 
print (i, div.contents) 

















属性 contents 中 存放 的 是 一 个 HTML 元 素 列 表 。 





0 [u'\n', <h4>Development</h4>, u'\n 0.I0.l.- July 2014', «br/», 


u'\n'] 

1 [u'\n', «h4»Official Release«c/h4», u'\n 0.10.0 June 2014', «br/», 
u'Mn!] 

2 [u'\n', «h4»Previous Releasec/h4», u'Mn 0.09.1 June 2013', «br/», 
u'\n'] 











为 了 便于 查找 ， 每 个 标签 的 ID 都 是 唯一 的 。 下 面 的 代码 将 选取 ID 为 official 的 那个 

















<div> 元 素 并 打印 输出 第 3 个 元 素 。 




















official div = soup.find all("div", id-"official") 
print("Official Version", official div[0].contents[2].strip()) 


许多 页 面 都 是 根据 访问 者 的 输入 或 者 外 部 数据 即时 生成 的 ， 网 上 购物 网 站 上 的 页 面 尤其 








如 此 。 当 我 们 跟 动 态 网 站 打交道 时 ， 必 须 牢记 所 有 标签 的 属性 值 随 时 都 可 能 发 生变 化 。 对 于 
大 型 网 站 来 说 ， 自 动 生成 的 ID 会 产生 一 个 大 型 的 字母 数字 字符 串 。 因 此 ， 这 时 最 好 不 要 使 
完全 匹配 方式 进行 查找 ， 而 要 使 用 正则 表达 式 。 下 面 介 绍 如 何 通过 模式 匹配 进行 查找 。 上 





















































面 的 代码 片段 输出 的 内 容 是 在 茶 个 网 站 上 碍 找 一 款 软件 产品 时 所 返回 的 版 本 号 和 月 份 。 











Official Version 0.10.0 June 2014 




















我 们 知道 ，class 是 Python 编程 语言 中 的 一 个 关键 字 。 为 查询 标签 的 类 属性 ， 必 须 使 用 






































class 作为 匹配 符 。 下 面 展 示 如 何 求 已 经 定义 了 类 属性 的 <div> 标 签 的 数量 。 


此 有 如 下 写法 。 


























print("# elements with class",len(soup.find all(class -True))) 


如 你 期 望 的 那样 ， 我 们 找到 了 3 个 标签 。 
# elements with class 3 


下 面 计 算 带 有 “tile” 类 的 <div> 标 签 的 数目 。 





tile class = soup.find all("div", class ="tile") 
print("£4 Tile classes", len(tile class)) 











实际 上 ,文档 中 存在 两 个 含有 tile 类 的 <div> 标 签 以 及 1 个 含有 notile 类 的 <div> 标 签 ， 
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# Tile classes 2 





下 面 定义 一 个 匹配 所 有 <div> 标 签 的 正则 表达 式 。 


print("# Divs with class containing tile", len(soup.find all("div", 
class -re.compile("tile")))) 


这 次 找到 了 3 个 符合 要 求 的 标签 。 


# Divs with class containing tile 3 











使 用 CSS 时 ， 可 以 利用 模式 来 匹配 文档 中 的 元 素 ， 这 些 模式 通常 称 为 CSS 选择 器 。 我 
们 可 以 利用 BeautifulSoup 类 提供 的 CSS 选择 器 来 选择 页 面 元 素 。 通 过 select) pA, 我 们 可 以 
匹配 带 有 notile 类 的 <div> 元 素 如 下 。 


























print ("Using CSS selector\n", soup.select('div.notile')) 


下 面 是 输出 内 容 。 


Using CSS selector 

[<div class-"notile"» 

Xh4»Previous Release«/h4» 
0.09.1 June 2013«br/» 

</div>] 











HTML 有 序列 表 看 起 来 与 项 目 编号 列表 非常 接近 ， 由 一 个 <ol> 标 签 和 若干 <li> 标 签 组 
成 ， 其 中 每 个 列表 项 对 应 一 个 <li> 标 签 。 就 像 Python 的 列表 一 样 ，select0 函 数 返 回 的 内 容 
也 可 以 进行 切 分 。 图 5-2 展示 了 有 序列 表 。 












































1.Cur id non ita fit? <ol> 
2. In qua si nihil est praeter rationem, sit in una virtute finis bonorum; + <li>Cur id non ita fit?«/li» 
3. Num igitur utiliorem tibi hunc Triarium putas esse posse, quam si tua sint Putcolis— ~——+li>In qua si nihil est praeter rationem, sit in una virtute finis bonorum; 
granaria? D i 
4. Quaero igitur, quo modo hae tantae commendationes a natura profectae subito a sapienti «li» Num igitur utiliorem tibi hunc Triarium putas esse posse, quam si tua 
relictae sint. E- Puteolis granaria?«/li» 
5. Eadem nunc mea adversum te oratio et 一 一 "*li»Quaero igitur, quo modo hae tantae commendationes a natura 
6. Qui enim voluptatem ipsam contemnunt, iis licet a subito a sapientia relictae sint.</li> 
anteponere. li» Eadem nunc mea adversum te oratio est.«/li» 
— —«li»Qui enim voluptatem ipsam contemnunt, iis licet dicere se 
Ego autem existimo, si honestum esse aliquid ostendero, quod acupenserem maenae non anteponere.«/li» 
sit ipsum vi sua propter seque expetendum, iacere vestra «lol» 





5-2 


下 面 的 代码 将 选择 有 序列 表 中 的 前 两 项 内 容 。 





print ("Selecting ordered list list items\n", soup.select("ol > 1li")[:2]) 
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这 两 个 列表 项 的 内 容 如 下 。 


Selecting ordered list list items 
[Xli»Cur id non ita fit?«/li», «li»In qua si nihil est praeter 
rationem, sit in una virtute finis bonorum;«/1li»] 






































利用 CSS 选择 器 的 袖珍 型 语言 ， 可 以 选择 第 二 个 列表 项 。 注 意 ， 这 里 是 从 1. 开 始 算 起 
的 。 有 具体 代码 如 下 。 











print ("Second list item in ordered list", soup.select("ol»li:nth-of-type (2)")) 




















下 面 是 列表 中 的 第 三 项 内 容 , 翻译 成 英语 ， 大意 是 “In which, if there is nothing contrary 


to reason, let him be the power of the end of the good things in one". 











Second list item in ordered list [<li>In qua si nihil est praeter 
rationem, sit in una virtute finis bonorum;«/1li»] 








当 用 浏览 器 阅览 页 面 时 ， 可 以 通过 特定 的 正则 表达 式 来 检索 匹配 的 文本 节点 。 以 下 代 
码 展示 了 如 何 借助 text 属性 来 找 出 所 有 包含 字符 串 “2014” 的 文本 节点 。 


print ("Searching for text string", soup.find all(text-re.compile ("2014"))) 


















































得 到 的 文本 节点 如 下 。 


Searching for text string [u'Mn 0.10.1 - July 2014', u'\n 
0.10.0 June 2014'] 























上 面 对 BeautifulSoup 类 的 功能 做 了 简要 介绍 ， 此 外 ，Beautiful Soup 还 能 用 于 修改 
HTML 和 XML 文档 。 它 不 仅 能 够 用 来 排 错 ， 还 能 美化 打印 效果 以 及 处 理 不 同 的 字符 集 。 
下 面 的 示例 代码 引 自 ch-05.ipynb 文件 。 


from bs4 import BeautifulSoup 
























































T 


import re 


soup = BeautifulSoup(open('loremIpsum.html'),"lxml") 





print("First div\n", soup.div) 
print("First div class", soup.div['class']) 


print("First dfn text", soup.dl.dt.dfn.text) 
for link in soup.find all('a'): 


print ("Link text", link.string, "URL", link.get('href')) 


# Omitting find all 
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for i, div in enumerate (soup('div')): 
print (i, div.contents) 


#Div with id=official 





official div = soup.find all("div", id-"official") 

print("Official Version", official div[0].contents[2].strip()) 
print("£ elements with class", len(soup.find all(class -True))) 
tile class = soup.find all("div", class -"tile") 

print("£t Tile classes", len(tile class)) 

print ("# Divs with class containing tile", len(soup.find all("div", 








class -re.compile("tile")))) 





print ("Using CSS selectorMn", soup.select('div.notile')) 

print ("Selecting ordered list list items\n", soup.select("ol > 1li")[:2]) 
print("Second list item in ordered list", soup.select("ol » li:nth- 
oftype(2)")) 

print ("Searching for text string", soup.find all(text-re.compile ("2014"))) 





























我 们 鼓励 读者 阅读 5.11 节 列 出 的 参考 资料 ， 以 便 ; unu MEER 
级 功能 ， 例 如 搜索 返回 节点 的 子 节点 ， 获 取 返 回 节 点 的 第 n 个 父 节点 ， 获 取 返 回 节点 的 第 
n 个 兄弟 节点 以 及 其 他 高 级 功能 。 





%4 


























5.10 小 结 
































本 章 介绍 了 检索 、 加 工 与 存储 不 同 格式 数据 的 方法 。 这 些 格式 包括 CSV. NumPy .npy、 
Python pickle, JSON, RSS 和 HTML 等 格式 。 其 中 , 我 们 用 到 了 NumPy pandas, JSON, feedparser 
以 及 Beautiful Soup 等 程序 库 。 

第 6 章 将 为 读者 讲解 利用 Python 显 实数 据 可 视 化 的 重要 主题 。 分 析 数 据 时 ， 可 视 化 是 
一 种 比较 常见 的 任务 。 它 能 够 展现 数据 中 各 个 变量 之 间 的 关系 。 通 过 数据 可 视 化 技术 ， 还 
可 以 形象 地 展示 出 数据 的 统计 特性 。 


5.11 参考 资料 


















































V. G. Nair, Getting Started with Beautiful Soup, Packt Publishing, 2014. 
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数据 分 析 初 始 阶段 ， 我 们 通常 都 要 进行 可 视 化 处 理 。 借 助 图 示 技 术 ， 就 算 枯燥 的 数 
值 表 ， 也 可 以 展示 出 它 娴 娜 的 一 面 。 数 据 可 视 化 旨 在 直观 展示 信息 的 分 析 结 果 和 构思 ， 
令 某 些 抽象 数据 具象 化 ， 这 些 抽 象 数据 包括 数据 测量 单位 的 性 质 或 数量 。 数 据 可 视 化 与 
科学 可 视 化 和 统计 图 示 技 术 关 系 极 为 紧密 。 本 章 用 到 的 程序 库 Matplotlib 是 建立 在 NumPy 
之 上 的 一 个 Python 绘图 库 , 它 提供 了 一 个 面向 对 象 的 API 和 一 个 过 程式 类 MATLAB API, 
它们 可 以 并 行使 用 。Matplotlib 使 用 的 图 库 可 以 从 其 官网 页 面 下 载 。 下 面 我 们 给 出 本 章 涉 
及 的 主题 。 


e Matplotlib 的 子 库 
e Matplotlib 简单 绘图 
。 XC 
。 散 点 图 
。 图 例 和 注解 


。 三 维 图 














































































































































































































e Pandas 绘图 





。 时 淳 图 
。 自 相关 图 


e Plot.ly 
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6.1 Matplotlib FÆ 


如 果 我 们 对 本 书 代 码 包 中 的 ch-01.ipynb 后 面部 分 代码 稍 作 修 改 ， 就 可 以 列 出 Matplotlib 
的 各 个 子 库 ， 结 果 如 下 。 


matplotlib version 1.3.1 

matplotlib.axes 

matplotlib.backends 

matplotlib.compat 

matplotlib.delaunay DESCRIPTION :Author: Robert Kern 
Xrobert.kern(gmail.com» :Copyright: Copyright 2005 
Robert Kern. 

:License: BSD-style license. See LICENSE.tx 
matplotlib.projections 

matplotlib.sphinxext 

matplotlib.style 

matplotlib.testing 

matplotlib.tests 

matplotlib.tri 






































这 些 子 程序 包 的 名 称 基本 上 不 解 自 明 ， 唯 一 需要 说 明 的 是 ， 这 里 的 后 级 backends 指 的 
是 最 终结 果 的 输出 方式 ， 即 可 以 通过 某 种 格式 的 文件 输出 结果 ， 也 可 以 通过 图 形 用 户 界 面 
输出 到 屏幕 上 。 














6.2 Matplotlib 绘图 入 门 











第 1 章 介 绍 了 Matplotlib 和 IPython 的 安装 方法 ， 如 果 需 要 ， 我 们 可 以 回头 去 看 。 
Matplotlib 采用 了 类 似 MATLAB 的 过 程式 API， 这 种 接口 的 易 用 性 通常 明显 优 于 面向 对 象 
的 API， 因 此 ， 我 们 首先 会 演示 过 程式 API 的 使 用 方法 。 为 了 使 用 Matplotlib 来 绘制 基本 
图 形 ， 我 们 需要 调用 matplotlib.pyplot 子 库 中 的 plot0 函 数 。 如 果 数 据点 具有 x 和 y 坐标 ， 
我 们 就 可 以 使 用 这 个 函数 来 绘制 由 这 种 数据 点 组 成 的 单个 或 多 个 数据 表 的 二 维 图 像 了 。 

此 外 ， 我 们 还 可 以 通过 格式 化 参数 来 指定 虚线 样式 。plotO 函 数 的 格式 选项 和 参数 非常 
多 ， 可 以 通过 下 面 的 命令 查看 (需要 提前 导入 matplotlib.pyplot 库 )。 


In [1]: help(plot) 





















































































































































本 例 要 使 用 两 种 样式 来 绘制 线条 ， 即 实 线 (默认 样 式 ) 和 虚线 。 
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下 列 演示 代码 引 自 本 书 代码 包 中 的 ch-06.ipynb 文件 


import matplotlib.pyplot as plt 








o 


import numpy as np 
x = np.linspace(0, 20) 
plt.plot(x, .5 t x) 


plt.plot(x, 1 * 2 * x, '2-') 
plt.show() 


为 了 画 出 上 述 线条 ， 我 们 要 执行 以 下 步骤 。 
(1) 首先 ,通过 NumpPy 中 的 jnspace0 函 数 指定 横 坐 标 ， 同 时 规定 起 点 和 终点 分 别 为 0 和 20。 








x = np.linspace(0, 20) 


(2) 其 次 通过 下 列 代码 画 线 。 


plt.plot(x, .5 -* x) 
plUt;plot(ix,; A 2 *€ x, feet) 

















(3) 此 时 ， 既 可 以 用 savefigO 函 数 把 图 形 保存 到 一 个 文件 中 ， 也 可 以 通过 show0O 函 数 
将 图 形 显示 到 屏幕 上 。 将 图 形 显示 到 屏幕 上 所 需 的 代码 如 下 。 


plt.show() 
































最 终结 果 如 图 6-1 所 示 。 
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6.3 WAK 





























所 谓 对 数 图 ， 实 际 上 就 是 使 用 对 数 坐 标 绘制 的 图 形 。 对 于 对 数 刻 度 来 说 ， 其 间隔 表示 
的 是 变量 的 值 在 数量 级 上 的 变化 ， 这 与 线性 刻度 有 很 大 的 不 同 。 对 数 图 又 分 为 两 种 不 同 的 
类 型 ， 其 中 一 种 称 为 双 对 数 图 ， 它 的 特点 是 两 个 坐标 轴 都 采用 对 数 刻 度 ， 对 应 的 matplotlib 
函数 是 matplotlib.pyplot.loglog()。 男 一 种 ， 半 对 数 图 的 一 个 坐标 轴 采 用 线性 标 度 ， 男 一 个 坐 
标 轴 使 用 对 数 刻度 , 它 对 应 的 matplotlib API 是 semilogx0) 函 数 和 semilogy0 函 数 。 在 双 对 数 
图 上 ， 突 律 表 现 为 直线 ;， 在 半 对 数 图 上 ， 直 线 则 代表 的 是 指数 律 。 

摩尔 定律 就 是 这 样 一 种 增长 方式 。 当 然 ， 这 不 是 一 条 物理 定律 ， 而 是 对 经 验 观 测 值 
的 一 种 刻画 。 摩 尔 定律 是 由 戈 登 。 BEA (Gordon Moore) 提出 来 的 ， 大 意 为 集成 电路 上 
晶体 管 的 数目 , 约 每 两 年 增加 一 倍 。 网 上 有 一 个 数据 表 , 记录 了 不 同年 份 微 处 理 器 上 蝇 体 管 
的 数量 。 
我 们 已 经 为 这 个 数据 表 制 作 了 一 个 CSV 文件 ， 名 为 transcount'csv， 其 中 仅 含 有 年 份 和 
晶体 管 数目 。 此 外 ， 我 们 还 需要 计算 晶体 管 数量 的 年 度 平 均值 。 至 于 计算 平均 值 和 加 载 该 
文件 的 方法 ， 可 以 由 Pandas 代劳 ， 如 果 需 要 ， 可 以 回顾 第 4 章 介 绍 的 方法 。 求 出 数据 表 中 
唱 体 管 数目 的 年 度 平 均值 后 ， 就 可 以 一 条 直线 来 拟 合唱 体 管 数量 随 年 份 的 变化 了 。NumPy 
中 的 polyfitO 函 数 可 以 用 多 项 式 来 拟 合 数据 。 


下 列 代 码 引 自 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 


import matplotlib.pyplot as plt 

































































































































































































































































import numpy as np 
import pandas as pd 


df = pd.read csv('transcount.csv') 

df = df.groupby('year').aggregate (np.mean) 

years = df.index.values 

counts = df['trans count'].values 

poly = np.polyfit(years, np.log(counts), deg-1) 
print("Poly", poly) 

plt.semilogy(years, counts, 'o') 

plt.semilogy(years, np.exp(np.polyval(poly, years))) 
plt.show() 


下 面 介绍 以 上 代码 。 
(OD 拟 合 数据 ， 代 码 如 下 。 














poly = np.polyfit(years, np.log(counts), 
print("Poly", poly) 


(20 经 过 拟 合 ， 得 到 一 个 Polynomial 对 象 ， 该 对 象 的 详情 可 参考 网 上 的 介 





字符 串 表 示 ， 实 际 上 就 是 多 项 式 系 数 的 按 次 数 降 序 排列 ， 
面 。 就 我 们 的 数据 而 言 ， 得 到 的 多 项 式 系数 如 下 。 


Poly [ 3.61559210e-01 -7.05783195e+02 ] 








deg-1) 
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绍 。 这 个 对 象 的 











因此 ， 最 高 次 数 项 的 系数 在 最 前 


(3) NumPy 的 polyvalO 函 数 可 以 用 来 对 上 面 得 到 的 多 项 式 进 行 评估 。 下 面 我们 为 数据 














象 并 通过 semilogy0 函 数 进行 拟 合 。 


plt.semilogy(years, counts, 'o') 


plt.semilogy(years, np.exp(np.polyval (poly, 





























这 里 ， 


years))) 








实 线 表示 的 是 趋势 线 ， 实 心 圆 表 示 的 是 数据 点 。 最 终结 果 如 图 





6-2 所 示 。 
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64 KAR 


散 点 




















升 趋势 模式 通常 意味 着 正 相 关 。 泡 式 





图 是 对 散 点 图 














图 可 以 形象 展示 直角 坐标 系 中 两 个 变量 之 间 的 关系 。 在 散 点 图 中 ， 
点 的 位 置 实际 上 就 是 两 个 变量 的 值 。 变 量 之 间 的 任何 关系 都 可 以 拿 散 点 图 来 示意 。 
的 一 种 扩展 。 在 泡 式 图 中 ， 每 个 数 
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据点 都 被 一 个 气泡 所 包围 ， 它 由 此 得 名 ; 而 第 3 个 变量 的 值 正好 可 以 



































来 确定 气泡 的 
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相对 大 小 。 














在 WiKi 网 站 上 ， 也 有 一 个 记录 图 

















EIER 





Am (GPU) 晶体 管 数量 的 数据 表 。 











GPU 是 为 了 高 效 显示 图 像 而 专门 设计 的 。 得 益 于 现代 显卡 的 工作 机 制 ，GPU 能 以 高 度 


























gpu transcount.csv 文件 ， 我 们 没有 为 它 




















并 行 的 方式 来 处 理 数 据 。 可 以 说 ，GPU 是 计算 技术 新 时 代 








的 弄潮儿 。 对 于 本 书 代码 包 中 的 





提供 太 多 的 数据 点 。 处 理 缺 失 数据 是 泡 式 图 经 常 要 














面 对 的 一 个 问题 ， 对 于 缺失 数据 ， 需 要 为 


















































其 定义 一 个 默认 的 气泡 大 小 。 下 面 ， 我 们 再 次 载 





入 年 度数 据 并 计算 其 平均 值 ， 然 后 通过 外 部 连接 操作 ， 按 照 年 份 对 存放 CPU 和 GPU mk 



































是 可 以 将 NaN 值 设 为 0 的 ,但 是 其 他 情 


























管 数量 的 DataFrame 进行 合并 。 这 当中 ，NaN 值 将 被 设 为 0。 需 要 注意 的 是 ， 就 本 例 而 言 
况 下 却 未 必 如 此 。 所 有 这 些 功能 都 已 经 在 第 4 章 中 


















































讲 过 了 ， 如 有 需要 ， 读 者 可 以 重新 温习 一 下 。 为 了 绘制 散 点 图 和 泡 式 图 ， 我 们 可 以 借助 








matplotlib API 提供 的 scatter0 函 数 。 要 想 查 阅 这 个 函数 的 相关 说 明文 档 ， 我 们 可 以 使 用 以 


下 命令 。 


$ ipython3 





ln [1]: import matplotlib as mpl 


In [2]: help (mpl.scatter) 


本 例 中 ， 需 要 设置 参数 s， 这 个 参数 与 气泡 的 大 小 有 关 。 另 外 ， 还 有 一 个 参数 ec， 用 来 

















指定 气泡 的 颜色 。 令 人 遗憾 的 是 ， 本 书 非 彩色 印 























行 示例 代码 ， 才 能 看 到 不 同 的 颜色 。 这 中 














HZ alpha 的 作 月 
































个 值 为 0~1， 其 中 0 代表 完全 透明 ，1 代表 完全 不 透明 。 创 建 泡 式 


plt.scatter(years, cnt log, c= 200 * years, 


gpu counts/gpu counts.max(), alpha-0.5) 


下 列 代 码 引 自 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 





import matplotlib.pyplot as plt 


import numpy as np 
import pandas as pd 


df = pd.read csv('transcount.csv') 
df = df.groupby('year').aggregate (np.mean) 


gpu = pd.read csv('gpu transcount.csv') 
gpu = gpu.groupby('year').aggregate (np.mean) 


df 


pd.merge(df, gpu, how-'outer', 





df = df.replace (np.nan, 0) 


出 ， 无 法 展示 气泡 的 颜色 ， 读 者 只 有 亲自 
是 ， 决 定 图 中 气泡 的 透明 度 。 

















E 














图 的 代码 如 下 。 





s-20 + 200 * 


left index-True, right index-True) 


print (df) 

years - df.index.values 

counts - df['trans count'].values 

gpu counts = df['gpu trans count'].values 


cnt log = np.log(counts) 


plt.scatter(years, cnt log, c= 200 * years, s-20 + 200 * 
gpu counts/gpu counts.max(), alpha-0.5) 





plt.show() 
最 终结 果 如 图 6-3 所 示 。 
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注解 
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6.5 图 例 和 注解 


要 想 做 出 让 人 一 眼 就 懂 
WU PE 


























。 用 来 
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描述 图 
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in 





数据 序列 的 


图 6-3 
































来 给 每 个 数据 序列 提供 相应 的 标签 。 


。 对 图 中 要 点 的 注解 
成 的 注解 包括 标签 
和 箭头 样式 以 及 其 
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o IIE, Pf ME 























。 横 轴 和 纵 轴 的 标签 。 














助 matplotlib 提 
和 箭头 两 个 组 成 部 分 。 这 个 函数 提供 
位 置 。 如 果 想 详细 了 解 这 






































的 “ 神 图 ” 图例 和 注解 肯定 是 少不了 的 。 一 般 情况 下 ， 数 据 图 
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图 例 。 为 此 ， 可 以 使 用 matplotlib EHK legend PS Zt, 


的 annotate0 函 数 。matplotlib Æ 
多 个 参数 ， 用 以 描述 标签 
help(annotate) 函 数 即 可 。 


这 些 标签 可 以 通过 xlabel0 和 ylabel0 函 数 绘制 出 来 。 对 于 这 两 
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个 函数 ， 我 们 需要 提供 一 个 字符 串 来 作为 标签 的 文本 ， 另 外 还 要 提供 一 些 可 选 参数 ， 
如 标签 的 字体 大 小 等 。 
。 一 个 说 明 性 质 的 标题 ， 通 常 由 matplotlib 的 title0 函 数 来 提供 。 一 般 来 说 ， 这 个 函数 
只 要 提供 一 个 描述 标题 的 字符 串 即 可 。 
。 网 格 ， 对 于 轻松 定位 数据 点 非常 有 帮助 。matplotlib 提供 的 grid0 函 数 可 以 用 来 决定 
是 否 启用 网 格 。 


下 面 对 上 例 中 的 泡 式 图 程序 代码 稍 作 修改 ， 加 入 本 章 第 2 个 例子 中 的 直线 。 同 时 ， 还 
会 为 数据 序列 添加 一 个 标签 ， 相 关 代码 如 下 。 








































































































plt.plot (years, np.polyval(poly, years), label-'Fit') 
plt.scatter(years, cnt log, c= 200 * years, s-20 + 200 * 
gpu counts/gpu counts.max(), alpha-0.5, label-"Scatter Plot") 





现在 给 数据 集中 的 第 一 个 GPU 添加 注释 。 为 此 ， 需 要 指定 相关 的 数据 点 ， 为 注解 定义 
标签 ， 指 定 箭头 样式 〈 见 参数 arrowprops)， 同 时 还 要 确保 把 注解 置 于 相应 数据 点 之 上 。 























gpu start = gpu.index.values.min() 





y ann = np.log(df.at[gpu start, 'trans count']) 

ann str = "First GPUNn $d" $ gpu start 

plt.annotate(ann str, xy-(gpu start, y ann), 
arrowprops-dict(arrowstyle-"-»5"), xytext-(-30, +70), textcoords-'offset 
points') 


要 想 阅 读 完整 的 代码 ， 请 参阅 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 





import matplotlib.pyplot as plt 
import numpy as np 
import pandas as pd 


df = pd.read csv('transcount.csv') 

df = df.groupby('year').aggregate (np.mean) 
gpu = pd.read csv('gpu transcount.csv') 

gpu 7 gpu.groupby('year').aggregate (np.mean) 


df = pd.merge(df, gpu, how-'outer', left index-True, right index-True) 





df = df.replace (np.nan, 0) 


years = df.index.values 
counts - df['trans count'].values 
gpu counts = df['gpu trans count'].values 


poly = np.polyfit(years, np.log(counts), deg-1) 
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plt.plot (years, np.polyval(poly, years), label-'Fit') 


gpu start = gpu.index.values.min() 

y ann = np.log(df.at[gpu start, 'trans count']) 

ann str = "First GPUNn $d" $ gpu start 

plt.annotate(ann str, xy-(gpu start, y ann), 
arrowprops-dict(arrowstyle-"-»"), xytext-(-30, +70), textcoords-'offset 
points') 


cnt log = np.log(counts) 
plt.scatter(years, cnt log, c= 200 * years, s-20 + 200 * 
gpu counts/gpu counts.max(), alpha-0.5, label-"Scatter Plot") 





plt.legend(loc-2'upper left') 

plt.grid() 

plt.xlabel("Year") 

plt.ylabel("Log Transistor Counts", fontsize-16) 
plt.title("Moore's Law & Transistor Counts") 

P 








lt.show() 








最 终结 果 如 图 6-4 所 示 。 
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6.6 三 维 图 














对 数据 可 视 化 来 说 ， 二 维 图 像 只 是 家 常 便 饭 ， 要 是 想来 点 大 餐 ， 那 就 非 三 维 图 形 莫 属 
了 。 笔 者 负责 开发 了 一 个 软件 包 ， 用 它 就 可 以 绘制 等 高 线 图 和 三 维 图 。 如 果 我 们 戴 上 一 副 
特制 眼镜 的 话 ， 该 软件 绘图 时 ， 图 像 婉 如 从 我 们 面前 跃 出 来 的 一 般 。 
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Axes3D 是 由 matplotlib API 提供 的 一 个 类 ， 可 以 用 来 绘制 三 维 图 。 通 过 讲解 这 个 类 的 
工作 机 制 ， 就 能 够 明白 面向 对 象 的 matplotlib API 的 原理 了 。matplotlib 的 Figure 类 是 存放 
各 种 图 像 元 素 的 顶级 容器 。 


CD 首先 ， 创 建 一 个 Figure 对 象 ， 代 码 如 下 。 

















© 





























fig = plt.figure() 





(2) 利用 Figure 对 象 创 建 一 个 Axes3D 对 象 。 


ax = Axes3D(fig) 






































(3) 这 里 ， 令 x 轴 和 y 轴 分 别 表示 年 份 和 CPU MAE ME. RI. 我们 还 需要 利用 存 
放 年 份 和 CPU 晶体管 数量 的 数组 来 创建 坐标 矩阵 (coordinate matrices)。 创 建 坐 标 和 矩阵 时 ， 
可 以 借助 NumPy 中 的 meshgrid0 函 数 。 









































X, Y = np.meshgrid(X, Y) 











(4) 通过 Axes3D 类 的 plot surface(0) 方 法 为 数据 绘制 图 像 。 





ax.plot surface(X, Y, Z) 


























C5) 根据 面向 对 象 API 函数 的 命名 约定 ， 应 该 以 set 开头 ， 以 程序 对 应 的 函数 名 结尾 ， 
具体 如 下 。 





ax.set xlabel('Year') 


( 
ax.set ylabel('Log CPU transistor counts') 
('1 





ax.set zlabel('Log GPU transistor counts') 


ax.set title("Moore's Law & Transistor Counts") 





下 列 代 码 摘自 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 





from mpl toolkits.mplot3d.axes3d import Axes3D 
import matplotlib.pyplot as plt 

import numpy as np 

import pandas as pd 


df = pd.read csv('transcount.csv') 


df = df.groupby('year').aggregate (np.mean) 
gpu = pd.read csv('gpu transcount.csv') 
gpu = gpu.groupby('year').aggregate (np.mean) 


df = pd.merge(df, gpu, how-'outer', left index-True, right index-True) 
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df = df.replace (np.nan, 0) 


fig = plt.figure() 

ax — Axes3D(fig) 

X = df.index.values 

Y 

np.where(df['trans count'].values»0,np.ma.log(df['trans count'].values), 0) 
X, Y = np.meshgrid(X, Y) 

VE 

np.where (df['gpu trans count'].values»0,np.ma.log(df['gpu trans count'].val 
ues), 0) 

ax.plot surface(X, Y, Z) 

ax.set xlabel('Year') 

ax.set ylabel('Log CPU transistor counts') 

ax.set zlabel('Log GPU transistor counts') 

ax.set title("Moore's Law & Transistor Counts") 

plt.show() 











最 终结 果 如 图 6-5 所 示 。 





摩尔 定律 与 晶体 管 的 数量 


GPU 晶体 管 数量 的 对 数值 














6.7 Pandas 绘图 





Pandas 的 Series 类 和 DataFrame 类 中 的 plot0 方 法 都 封装 了 相关 的 matplotlib 函数 。 如 果 
不 带 任何 参数 ， 使 用 plot( 方 法 绘制 本 章 一 直 用 的 那个 数据 集 ， 将 会 得 到 图 6-6 所 示 的 图 像 。 
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图 6-6 


为 了 创建 半 对 数 图 ， 我 们 需要 增设 logy 参数 。 





df.plot(logy-True) 


我 们 的 数据 生成 的 图 像 如 图 6-7 所 示 。 
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图 6-7 
为 了 创建 散 点 图 ， 我 们 需要 把 参数 kind 设 为 scatter， 同 时 ， 还 要 指定 两 个 列 。 此 外 ， 
如 果 我 们 将 参数 loglog 设 为 True， 就 会 生成 一 个 双 对 数 〈log-log) 图 。 注 意 ， 下 列 代 码 要 
求 Pandas 的 版 本 最 低 为 0.13.0。 








df[df['gpu trans count'] > 0].plot(kind-'scatter', x-'trans count', 





y-'gpu trans count', loglog-True) 
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Ed 士 FH -5 
最 终结 果 如 网 6-8 所 示 。 
1010 
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图 6-8 
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下 面 的 代码 摘自 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 


import matplotlib.pyplot as plt 
import numpy as np 
import pandas as pd 


df = pd.read csv('transcount.csv') 
df = df.groupby('year').aggregate (np.mean) 


gpu = pd.read csv('gpu transcount.csv') 
gpu gpu.groupby('year').aggregate (np.mean) 


df = pd.merge(df, gpu, how-'outer', left index-True, right index-True) 





df = df.replace (np.nan, 0) 

df.plot() 

df.plot (logy-True) 

df[df['gpu trans count'] > 0].plot(kind-'scatter', x-'trans count', 





y-'gpu trans count', loglog-True) 
plt.show() 
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时 滞 图 实际 上 就 是 一 幅 散 点 图 ， 只 不 过 把 时 间 序 列 的 图 像 及 相同 序列 在 时 间 轴 上 后 延 
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的 图 像 放 在 一 起 展示 而 已 。 举 例 来 说 , 我 们 可 以 利用 这 种 图 来 考察 今年 的 CPU 晶体 管 数量 
与 上 一 年 度 CPU 蝇 体 管 数量 之 间 的 相关 性 。 我们 可 以 利用 Pandas 子 库 pandas.tools.plotting 
中 的 lag_plot0 函 数 来 绘制 时 浊 图 。 下面 是 绘制 CPU 昂 体 管 数量 时 滞 图 的 代码 , 这 里 时 滞 默 
认为 1， 具 体 如 下 。 


























o 






































lag plot(np.log(df['trans count'])) 











最 终结 果 如 图 6-9 所 示 。 
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图 6-9 


下 面 是 用 来 演示 时 清 图 的 示例 代码 ， 摘 自 本 书 代码 包 中 的 ch-06.ipynb 文件 。 
































import matplotlib.pyplot as plt 

import numpy as np 

import pandas as pd 

from pandas.tools.plotting import lag plot 


df = pd.read csv('transcount.csv') 
df = df.groupby('year').aggregate (np.mean) 


gpu = pd.read csv('gpu transcount.csv') 
gpu.groupby('year').aggregate (np.mean) 


Q 
'O 
f 

Il 


df = pd.merge(df, gpu, how='outer', left index-True, right index-True) 





df = df.replace (np.nan, 0) 
lag plot(np.log(df['trans count'])) 
plt.show() 














69 EXE 129 


69 自 相关 图 
































自 相 关 图 描述 的 是 时 间 序 列 数据 在 不 同时 间 延 迟 情况 下 的 自 相 关 性 。 所 谓 自 相 关 ， 
j 非 专业 人 员 的 话说 ， 就 是 时 间 序 列 在 时 刻 n 的 值 与 在 时 刻 n+l 的 值 的 相互 关系 ， 其 中 1 
就 是 这 里 的 时 间 延 迟 。 通 常 ， 这 些 图 用 于 检查 时 间 序 列 是 否 具 有 随机 性 。 就 随机 时 间 序 
列 来 说 ， 对 于 所 有 时 间 延 迟 其 自 相 关 值 接近 于 零 ， 而 对 于 非 随机 时 间 序 列 ， 对 于 某 些 或 
所 有 时 间 延 迟 来 说 自 相 关 值 都 会 
自 相 关 性 。 


利用 Pandas 子 库 pandas.tools. plotting 中 的 autocorrelation_plot0 函 数 , 我 们 就 可 以 画 出 
自 相 关 图 了 。 下 列 演示 代码 摘自 本 书 代 码 包 中 的 ch-06.ipynb 文件 。 
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有 显著 的 非 零 值 。 我 们 将 在 第 7 章 中 进一步 详细 说 明 





























import matplotlib.pyplot as plt 
import numpy as np 
import pandas as pd 
from pandas.tools.plotting import autocorrelation plot 





df = pd.read csv('transcount.csv') 
df = df.groupby('year').aggregate (np.mean) 


gpu = pd.read csv('gpu transcount.csv') 
gpu = gpu.groupby('year').aggregate (np.mean) 





df = pd.merge(df, gpu, how-'outer', left index-True, right index-True) 
df = df.replace (np.nan, 0) 

autocorrelation plot(np.log(df['trans count'])) 

plt.show() 


为 CPU 晶体 管 数 量 绘制 自 相关 图 的 代码 如 下 。 

















autocorrelation plot(np.log(df['trans count'])) 





从 图 6-10 中 可 以 看 出 ， 较 之 于 时 间 上 越 远 〈 即 时 间 延 迟 越 大 ) 的 数值 ， 当 前 的 数 
与 时 间 上 越 接近 《即时 间 延 迟 越 小 ) 的 数值 的 相关 性 越 大 ， 当 时 间 延 迟 极 大 时 ， 相 关 
性 衰减 为 0。 
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6.10 Plot. ly 











Plot.ly 实际 上 是 一 个 网 站 ， 目 前 处 于 beta 测试 阶段 。 它 不 仅 提供 了 许多 数据 可 视 化 的 























ERTH, 同时 还 提供 了 可 在 用 户 机 器 上 使 用 的 对 应 Python 库 。 我 们 可 以 通过 Web 接口 或 








以 本 地 方式 导入 并 分 析 数 据 ， 而 且 还 可 以 将 分 析 结 果 公 布 到 Plot.ly 网 站 上 面 。 团 队 内 的 各 
个 成 员 可 以 通过 这 个 网 站 轻松 达到 共享 数据 图 像 的 目的 ， 从 而 实现 成 员 之 间 的 协作 ， 这 也 















































正 是 该 网 站 的 独到 之 处 。 本 节 我 们 将 举例 说 明 如 何 通过 Python APT 来 绘制 箱 形 图 。 








箱 形 图 是 一 种 通过 四 分 位 数 来 形象 展示 数据 集 的 特殊 方法 。 如 果 把 一 个 有 序数 据 集 分 




















为 4 等 份 ,那么 第 1 个 四 分 位 数 就 是 最 小 值 区 间 的 最 大 














RH. 982 个 四 分 位 数 是 位 于 数据 集中 
































间 位 置 的 那个 数值 ， 又 称 “ 中 位 数 ”。 第 3 个 四 分 位 数 是 位 于 中 位 数 和 最 大 值 中 间 位 置 上 的 




















那个 数值 。 箱 形 图 的 项 和 底 分 别 是 第 1 个 四 分 位 数 和 第 














3 个 四 分 位 数 ， 而 贯穿 箱子 的 那 条 线 





























则 是 中 位 数 。 箱 子 顶 底 上 的 那 两 根 “ 须 ” 通常 就 是 数据 集 的 最 大 值 和 最 小 值 。 本 节 结 束 时 ， 
我 们 会 提供 一 幅 带 有 注释 的 箱 形 图 ， 届 时 就 会 一 目 了 然 了 。 安 装 Plot.ly API 的 命令 如 下 。 


















































$ sudo pip3 install plotly 























安装 API 后 , 我 们 注册 获得 一 个 API 密 钥 ,提供 有 效 密 钥 后 ， 可 以 通过 下 列 代码 登录 。 











# Change the user and api key to your own username and api key 


py.sign in('username', 'api key') 


通过 Plot.ly API 创建 箱 形 图 的 代码 如 下 。 





data = Data ([Box(y=counts), Box(y=gpu counts)]) 


plot url = py.plot(data, filename-'moore-law-scatter') 


下 列 代码 摘自 本 书 代码 包 中 的 ch-06.ipynb 文件 。 


import plotly.plotly as py 
from plotly.graph objs import * 
import numpy as np 

import pandas as pd 





df 
df 


pd.read csv('transcount.csv') 
df.groupby('year').aggregate (np.mean) 


gpu = pd.read csv('gpu transcount.csv') 
gpu 7 gpu.groupby('year').aggregate (np.mean) 


df = pd.merge(df, gpu, how-'outer', left index-True, 


df = df.replace (np.nan, 0) 


6.10 


# Change the user and api key to your own username and api key 


py.sign in('username', 'api key') 


counts = np.log(df['trans count'].values) 
gpu counts = np.log(df['gpu trans count'].values) 


data = Data([Box(y-counts), Box(y-gpu counts)]) 


plot url = py.plot (data, filename-'moore-law-scatter') 


print(plot url) 


最 终结 果 如 图 6-11 所 示 。 


Plot.ly 


right index-True) 








trace 0 trace 1 





BE ece0 
B vae: 
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6.11 “小结 














本 章 论述 了 基于 Python 的 数据 可 视 化 ， 其 中 用 到 了 Matplotlib 、Pandas 和 Plotly， 同 
时 还 讲解 了 箱 形 图 、 散 点 图 、 泡 式 图 、 对 数 图 、 自 相关 图 、 时 请 图 、 三 维 图 、 图 例 和 注 


解 等 。 































































































对 数 图 是 使 用 对 数 坐 标 绘制 的 图 形 ;， 半 对 数 图 是 一 个 坐标 轴 使 用 线性 标 度 ， 另 一 个 坐 
标 轴 使 用 对 数 标 度 画 出 的 图 形 。 散 点 图 描绘 的 是 两 个 变量 之 间 的 对 应 关系 ， 而 泡 式 图 则 是 
一 种 特殊 的 散 点 图 。 在 泡 式 图 中 ， 第 3 个 变量 的 值 表示 的 是 包围 数据 点 的 气泡 的 大 小 。 自 
相关 图 描绘 的 是 时 间 序 列 数 据 对 于 不 同时 间 延 迟 的 自 相 关 性 。 

同时 ， 我 们 还 介绍 了 plotly， 它 是 一 个 用 于 数据 可 视 化 的 在 线 云 服务 ， 而 且 使 用 该 服 
务 创 建 了 一 个 箱 型 图 。 箱 型 图 是 根据 数据 的 四 分 位 数 来 形象 展示 数据 的 一 种 可 视 化 方法 。 
第 7 章 将 介绍 一 种 特殊 类 型 的 数据 : 时 间 序 列 。 时 间 序 列 是 一 些 按时 间 先 后 顺序 排列 
形成 的 数据 点 ， 当 然 ， 这 些 数 据点 都 提前 按照 时 间 改 做 了 标记 。 许 多 物理 世界 的 测量 数据 
都 是 以 时 间 序 列 的 形式 存在 的 并 且 一 般 都 被 视 为 信号 ， 如 声音 信号 、 光 信和 号 或 者 电信 号 等 。 
后 续 章节 我 们 不 仅 会 教 大 家 如 何 过 滤 这 些 信号 ， 而 且 会 介绍 如 何 对 时 间 序 列 进行 建 模 。 
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信号 处 理 是 工程 和 应 用 数学 领域 的 一 个 分 文 ， 主 要 用 于 分 析 模 拟 信号 和 数字 信和 号 随时 














前 特定 





间 变 化 的 变量 。 时 间 序 列 分 析 是 信号 处 理 技术 的 一 个 分 支 。 时 间 序 列 是 一 个 从 首次 测量 开 
始 的 数据 点 的 有 序列 表 ， opua IT 如 以 日 或 年 为 间隔 进行 采 
样 。 进 行 时 间 序 列 分 析 时 ， 数 据 值 的 顺序 很 重要 ， 需要 设法 找 出 茶 个 值 与 该 序列 中 之 
H 周期 数 上 的 另 一 个 数据 点 或 者 一 组 数据 a 


本 章 以 年 度 日 斑 周 期 数据 为 例 介绍 时 间 序 列 ， 这 些 数据 可 以 从 一 个 开源 Python 项 目 



























































statsmodels 程序 包 中 获得 。 这 些 例 子 要 用 到 NumPy/SciPy、Pandas 和 statsmodels 库 。 
本 章 涉及 以 下 主题 。 





statsmodels 模块 
移动 平均 值 
窗口 函数 

自 相关 

自 回归 模型 
ARMA 模型 
生成 周期 信号 
fi HL HT 
谱 分 析 
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e 过 滤 


7.1 statsmodels 模块 





如 果 需 安装 statsmodels 模块 ， 请 执行 





$ pip3 install statsmodels 

















我 们 打开 代码 包 内 的 ch-07.ipynb 文件 , 然后 修改 代码 , S 
能 看 到 如 下 输出 。 




















statmodels version 0.6.1 
statsmodels .base 
statsmodels .compat 
statsmodels.datasets 
statsmodels.discrete 
statsmodels.distributions 
statsmodels.duration 
statsmodels.emplike 
statsmodels.formula 
statsmodels.genmod 
statsmodels.graphics 
statsmodels.interface 
statsmodels.iolib 
statsmodels.miscmodels 
statsmodels.nonparametric 


DESCRIPTION For an overview of this module, see 


其 显示 statsmodels 的 子 库 后 ， 





docs/source/nonparametric.rst PACKAGE CONTENTS kernel base 
.smoothers lowess api bandwidths statsmodels.regression 


statsmodels.resampling 
statsmodels.robust 
statsmodels.sandbox 
statsmodels.stats 
statsmodels.tests 
statsmodels.tools 
statsmodels.tsa 


7.2 移动 平均 值 





研究 时 间 序 列 时 ， 我 们 经 常会 用 到 移动 平均 值 。 移 动 平均 法 需要 规定 一 个 窗口 ， 
每 前 移 一 个 周期 ， 其 中 的 数据 都 要 计算 一 次 均值 。 























定 了 每 一 眼 能 看 到 数据 的 数量 ， 窗 
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ER 
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SMA _ à, s Oi TU a n-(n-1) 





n 
不 同类 型 的 移动 平均 法 主要 区 别 在 于 求 平 均值 时 所 用 的 权重 ， 例 如 指数 移动 平均 法 ， 
权重 随时 间 的 变化 以 指数 的 形式 递减 。 
EMA, = EMA, ,+ a(p, - EMA, ,) 
这 意味 着 , 数据 值 的 位 置 越 靠 前 , 其 对 均值 的 影响 力 愈 弱 ， 有 时 这 种 特性 正 是 我 们 所 希望 的 。 
以 下 代码 摘自 本 书 代 码 包 中 的 ch-07.ipynb 文件 ， 它 将 绘制 以 11 年 和 22 年 为 窗口 的 太 
阳 黑 子 周期 的 简单 移动 平均 值 。 







































































import matplotlib.pyplot as plt 
import statsmodels.api as sm 
from pandas.stats.moments import rolling mean 


data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
year range = df["YEAR"].values 

lt.plot(year range, df["SUNACTIVITY"].values, label-"Original") 
lt.plot(year range, df.rolling (window-11).mean() ["'SUNACTIVITY"].values, 
label-2"SMA 11") 














plt.plot(year range, df.rolling (window-22).mean() ['SUNACTIVITY"].values, 
label-2"SMA 22") 

plt.legend() 

plt.show() 





指数 移动 平均 的 指数 式 递减 加 权 策 略 ， 可 以 通过 下 列 NumPy 代码 实现 。 


weights = np.exp(np.linspace(-1., 0., N)) 
weights /= weights.sum() 


























简单 移动 平均 值 使 用 的 是 等 量 加 权 策 略 ， 相 应 代码 如 下 。 


























def sma (arr n): 
weights = np.ones(n) / n 





return np.convolve (weights, arr) [n-1:-n+1] 





因为 我 们 可 以 把 数据 载 入 到 pandas 的 DataFrame 中 , 所 以 这 样 其 rolling mean) A lcs 
用 起 来 会 更 加 方便 。 下 面 我 们 使 用 statsmodels 库 加 载 数 据 ， 代 人 码 如 下 。 























data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
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最 终结 果 如 图 7-1 所 示 。 
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图 7-1 


7.3 窗口 函数 





NumPy 提供 了 许多 窗口 例 程 ， 当 像 前 面 所 说 的 那样 滚动 窗口 时 ， 可 以 用 它们 计算 
权重 。 
窗口 函数 是 定义 在 一 个 区 间 (窗口 ) 上 的 函数 ， 超 出 定义 域 ， 函 数值 取 零 。 我 们 可 以 
使 用 它们 来 分 析 频 谱 、 设 计 滤 波 器 等 。Boxcar 窗口 是 一 种 矩形 窗口 ， 公 式 如 下 。 





limi 
um 





























w(n) = 1 


三 角形 窗口 的 形状 像 一 个 三 角形 ， 其 公式 如 下 。 





w(n)-1- D 


2 
上 面 的 公式 中 , L 可 以 是 N、N+1 或 者 NM-1。 最 后 介绍 的 窗口 函数 是 钟 形 的 布莱克 曼 
O (Bartlett window), X w F 


w(n)=a a, cosl ease m) 
0 1 Ne iic" d 














LM 








N= 





l-a 1 
其 中 a = 2 Y T S 


a 
2 
汉 宁 窗 (Hanning window) 是 另外 一 种 钟 形 窗 口 函 数 ， 定 义 如 下 : 
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w(n) 05 人 -ea | 
N -1 




















根据 Pandas 的 应 用 程序 接口 的 规定 ，rolling_window0 函 数 的 win type 参数 用 来 规定 窗 
口 函数 的 类 型 ， 另 一 个 参数 规定 窗口 的 大 小 ， 通 常设 为 22， 这 是 太阳 黑子 数据 的 中 等 周期 
〈《 据 研究 ， 存 在 3 个 周期 ， 分 别 为 11 年 、22 年 和 100 年 )。 下 面 的 代码 摘自 本 书 代码 包 中 
的 ch-07.ipynb 文件 ， 为 了 便于 在 图 中 进行 比较 ， 这 里 只 取 近 150 年 的 数据 。 

import matplotlib.pyplot as plt 

import statsmodels.api as sm 


from pandas.stats.moments import rolling window 
import pandas as pd 





















































data loader = sm.datasets.sunspots.load pandas () 

df = data loader.data.tail(150) 

df = pd.DataFrame(('SUNACTIVITY':df['SUNACTIVITY'].values], 
index-df['YEAR']) 

ax = df.plot() 


def plot window (wintype): 

df2 = df.rolling(window-22,win type-wintype, 
center-False,axis-0).mean() 

df2.columns = [wintype] 

df2.plot(ax-ax) 





plot window('boxcar') 
plot window('triang') 
plot window('blackman') 
plot window('hanning') 
plot window('bartlett') 
plt.show() 











最 终结 果 如 图 7-2 所 示 。 
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图 7-2 
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1.4 协 整 的 定义 





























协 整 概念 类 似 于 关联 概念 ， 但 是 许多 人 认为 ， 定 义 两 个 时 间 序 列 相关 性 时 ， 协 整 
性 能 优越 的 衡量 指标 。 如 果 两 个 时 间 序 列 x(t) 和 y(t) 的 线性 组 合 是 稳 态 的 ， 那 么 就 称 
个 序列 具有 共 整 合 性 或 协 整 性 。 在 这 种 情况 下 ， 下 面 的 方程 式 应 该 是 稳 态 的 。 

















是 一 
这 两 


















































y(t) - a x(t) 








考虑 醉 汉 与 狗 在 一 起 散步 的 情形 ， 相 关 性 反映 出 他 们 是 否 在 同一 个 方向 上 前 进 。 协 整 
性 反映 的 则 是 一 段 时 间 后 人 和 狗 之 间 的 距离 。 下 面 利 用 随机 生成 的 时 间 序 列 和 真实 数据 来 
展示 协 整 关系 。 增 广 迪 基 - 福 勒 检验 法 (Augmented Dickey-Fuller test; ADF) 可 以 测试 时 间 
序列 中 的 单位 根 ， 也 可 用 于 确定 时 间 序 列 的 协 整 关系 。 


下 面 的 代码 摘自 本 书 代码 包 中 的 ch-07.ipynb 文件 。 

























































































import statsmodels.api as sm 

from pandas.stats.moments import rolling window 
import pandas as pd 

import statsmodels.tsa.stattools as ts 





import numpy as np 


def calc adf(x, y): 
result = sm.OLS(x, y).fit() 
return ts.adfuller(result.resid) 


data loader = sm.datasets.sunspots.load pandas () 
data = data loader.data.values 
N = len (data) 


t = np.linspace(-2 * np.pi, 2 * np.pi, N) 
sine = np.sin(np.sin(t)) 
print("Self ADF", calc adf(sine, sine)) 


noise = np.random.normal(0, .01, N) 
print ("ADF sine with noise", calc adf(sine, sine + noise)) 


cosine = 100 * np.cos(t) + 10 


print ("ADF sine vs cosine with noise", calc adf (sine, cosine + noise)) 





print("Sine vs sunspots", calc adf(sine, data)) 


74 协 整 的 定义 ”139 








下 面 开 始 展示 协 整 性 。 
COD 定义 用 来 计算 ADF 统计 量 的 函数 。 























def calc adf(x, y): 
result = sm.OLS(x, y).fit() 
return ts.adfuller(result.resid) 

















(2) 太阳 黑子 数据 载 入 NumPy 数组 。 











data loader = sm.datasets.sunspots.load pandas () 
data = data loader.data.values 
N = len (data) 











G) 计算 正弦 值 并 求 出 该 值 与 其 自身 的 协 整 关系 。 














t = np.linspace(-2 * np.pi, 2 * np.pi, N) 
sine = np.sin(np.sin(t)) 
print("Self ADF", calc adf(sine, sine)) 


(4) 以 上 代码 将 打印 如 下 内 容 。 


Self ADF (-5.0383000037165746e-16, 0.95853208606005591, 0, 308, 
('5$': -2.8709700936076912, '1$': -3.4517611601803702, '10$': 
-2.5717944160060719), -21533.11365547 71719) 


输出 的 第 1 个 值 是 对 ADF 的 度量 ， 第 2 个 值 是 p 值 ， 这 里 的 p 值 是 很 高 的 。 接 下 来 是 
时 间 延 迟 和 样本 量 ， 最 后 是 一 个 词典 ， 给 出 了 这 个 样本 量 的 + 分 布 值 。 


(5) 下 面 给 正弦 波 信号 添加 噪音 ， 看 它们 是 如 何 影响 该 信号 的 。 







































































noise = np.random.normal(0, .01, N) 
print("ADF sine with noise", calc adf(sine, sine + noise)) 





(6) 混入 噪音 后 ， 会 得 到 如 下 所 示 的 结果 。 








ADF sine with noise (-7.4535502402193075, 5.5885761455106898e- 
11, 3, 305, [('5$': -2.8710633193086648, '1$': 
-3.4519735736206991, '10$': -2.5718441306100512], 
-1855.024397777703672) 





p 值 出 现 明显 下 降 。ADF 指标 的 值 为 -7.45， 低 于 字典 中 所 有 的 临界 值 ， 所 有 这 些 都 是 
拒绝 协 整 的 有 力 证 据 。 


CT) 下 面 生成 一 个 幅 值 和 偏 移 量 更 大 的 余弦 波 并 混入 噪音 。 
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cosine = 100 * np.cos(t) + 10 

print("ADF sine vs cosine with noise", calc adf(sine, cosine + 
noise)) 

下 面 是 我 们 得 到 的 值 。 





ADF sine vs cosine with noise (-17.927224617871534, 2.8918612252729532e-30, 
16, 292, ('5$': -2.8714895534256861, '1$': -3.4529449243622383, '10$': 
-2.5720714378870331), -11017.837238220782) 





同样 ， 








证 据 有 力 地 表明 拒绝 协 整 。 正 弦 和 太阳 黑子 之 间 的 协 整 检验 结果 如 下 。 











Sine vs sunspots (-6.7242691810701016, 3.4210811915549028e-09, 16, 292, 


(sta 


-2.8714895534256861, '1$': -3.4529449243622383, '10$': 


-2.5720714378870331], -1102.5867415291168) 





























这 里 所 用 的 两 个 时 间 序 列 对 的 置信 水 平 大体 相 当 ， 都 与 数据 点 的 数量 有 关 ， 但 是 变化 
































不 大 ， 总 结 见 表 7-1。 






































表 7-1 
序列 对 统计 量 p Ë 5% 1% 10% 拒绝 
EsZ 5 ES? —5.03E-16 | 0.95 -2.87 -345 -2.57 No 
E3% A WR ES 一 7.45 5.58E-11 | -2.87 -345 -2.57 Yes 
EA 5 d WR RS -17.92 2.89E-30 | -2.87 -3.45 -2.57 Yes 
正弦 与 太阳 黑子 一 6.72 3.42E-09 | -2.87 -3.45 -2.57 Yes 
































7.5 自 相 关 


























自 相 关 是 数据 集 内 部 的 相关 性 ， 可 用 来 指明 趋势 。 
































对 于 给 定 的 时 间 序 列 ， 我 们 只 要 知道 其 均值 和 标准 差 ， 就 可 以 用 期 望 值 算 子 来 定义 时 


间 s 和 tt 的 

















自 相 关 。 





E|G, - ux, — 4,)] 
Oo, Oo, 





本 质 上 ， 这 就 是 把 相关 性 公式 应 用 于 一 个 时 间 序 列 及 其 同一 个 时 间 序 列 的 滞后 部 分 。 
举例 来 说 ， 如 果 后 延 一 个 周期 ， 就 可 以 检测 前 一 个 值 是 否 影响 当前 值 。 当 然 ， 如 果 是 
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真 的 ， 那 么 计算 出 的 自 相关 的 取 值 自然 会 相当 高 。 


第 6 章 曾经 用 Pandas 函数 绘制 过 自 相 关 图 形 。 本 例 中 将 使 用 NumPy 库 的 correlate) 
函数 来 计算 太阳 黑子 周期 实际 的 自 相 关 值 。 最 后 ， 对 取得 的 数值 进行 正则 化 处 理 。 


NumPy 库 的 correlateO 函 数 用 法 如 下 。 










































































y = data - np.mean (data) 
norm = np.sum(y ** 2) 
correlated = np.correlate(y, y, mode-'full')/norm 


此 外 ， 我 们 对 关联 度 最 高 值 的 索引 也 很 感 兴趣 ， 这 些 索引 可 用 NumPy 的 argsort() E 2t 
取得 ， 它 返回 的 是 数组 排序 后 对 应 的 下 标 。 























print np.argsort(res)[-5:] 





下 面 是 自 相 关 程 度 最 高 的 值 的 下 标 。 


9: 1l 10 1 0] 





自 相关 的 最 大 值 对 应 于 零 延 迟 ， 即 信号 与 其 自身 的 相关 性 ; 次 最 大 值 对 应 于 一 个 周期 
的 延迟 ， 即 10 年 。 以 下 代码 摘自 本 书 代 码 包 的 ch-07.ipynb 文件 。 





import numpy as np 
import pandas as pd 

t statsmodels.api as sm 
import matplotlib.pyplot as plt 


from pandas.tools.plotting import autocorrelation plot 





data loader = sm.datasets.sunspots.load pandas () 
data = data loader.data["SUNACTIVITY"].values 
y = data - np.mean (data) 





norm = np.sum(y ** 2) 
correlated = np.correlate(y, y, mode-'full')/norm 
res = correlated[len(correlated)/2:] 





print (np.argsort(res)[-5:]) 
plt.plot(res) 

plt.grid(True) 
plt.xlabel("Lag") 
plt.ylabel("Autocorrelation") 
plt.show() 
autocorrelation plot (data) 
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plt.show() 








最 终结 果 如 图 7-3 所 示 。 




















kj 








i i i i i i 
0 50 100 150 200 250 300 350 
延迟 





图 7-3 





可 以 将 图 7-3 与 下 面 Pandas 绘制 的 图 7-4 做 比较 。 












































71.6 自 回 归 模 型 

















需要 假定 一 个 随机 变 
线性 的 ， 我 们 要 做 的 








自 回归 模型 可 用 于 预测 时 间 序 列 将 来 的 值 。 使 用 该 模型 时 ， 通 常 
量 的 值 依赖 于 它 前 面 的 值 。 另 外 ， 该 模型 还 假定 前 后 值 之 间 的 关系 是 
就 是 拟 合 数据 ， 以 便 给 数据 找到 适当 的 参数 。 
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自 回归 模型 的 数学 公式 如 下 。 





p 
X,-c-c Dax, ,+ €, 
i=l 
































上 面 公 式 中 ，c 是 常量 ， 最 后 一 项 是 随机 分 量 ， 又 名 白 噪 声 。 

这 给 我 们 提出 了 一 个 很 常见 的 线性 回归 问题 ， 但 从 实用 性 考虑 ， 保 持 模型 的 简单 性 是 
十 分 重要 的 ， 因 此 我 们 只 保留 必要 的 滞后 分 量 。 按 机 器 学 习 的 专业 术语 来 说 ， 这 些 叫 作 特 
征 。 处 理 回 归 问 题 时 ，Python 的 机 器 学 习 库 scikit-learn 虽然 不 是 最 好 的 ， 也 是 一 个 上 乘 之 
选 。 第 10 章 我 们 将 会 用 到 这 个 API。 
进行 回归 分 析 时 ,我 们 常常 遇 到 过 拟 合 的 问题 ， 这 个 问题 经 常 出 现在 对 样本 的 拟 合 程度 非 
常理 想 的 情况 下 ， 这 时 一 旦 引入 新 的 数据 点 ， 其 表现 立刻 变 差 。 对付 这 个 问题 的 标准 解决 方案 
是 进行 交叉 验证 ， 或 者 使 用 没有 过 拟 合 问题 的 算法 。 利 用 这 种 方法 ,我 们 只 将 一 部 分 样本 用 于 
模型 参数 的 估算 ， 其 余数 据 用 于 该 模型 的 测试 和 评估 。 这 实际 上 是 一 种 简化 的 解释 ， 现 实 中 有 
更 复杂 的 交叉 验证 方案 ， 其 中 很 多 已 在 scikit-learn 中 得 到 支持 。 为 了 评估 该 模型 ， 我 们 需要 计 
算 适 当 的 评价 指标 。 这 种 评价 指标 不 仅 很 多 ， 而 且 随 着 从 业 人 员 对 其 理解 的 不 断 调整 ， 指 标的 
定义 也 在 不 断 变化 。 我 们 可 以 借助 书本 或 Wikipedia 找到 这 些 指标 的 定义 ， 但 是 请 记 住 ， 预 测 
或 者 拟 合 的 评估 方法 不 是 一 门 精确 的 科学 。 事 实 上 ， 指 标 如 此 多 ， 只 能 表明 谁 也 说 服 不 了 谁 。 

下 面 我 们 通过 scipy.optimize.leastsq0 函 数 来 搭建 模型 ， 该 函数 使 用 的 前 两 个 滞后 分 量 
我 们 在 之 前 已 经 见 过 。 此 外 ， 我 们 还 可 以 选择 一 个 线性 代数 函数 作为 奉 代 。 可 是 ，leastsq(0) 
函数 具有 更 大 的 灵活 性 ， 让 我 们 几乎 可 以 规定 任意 类 型 的 模型 。 搭 建 模型 的 代码 如 下 。 
































































































































































































































































































































































































































def model(p, x1, x10): 
pl, pl0- p 
return pl * x1 -* pl10 * x10 


def error(p, data, x1, x10): 
return data - model(p, x1, x10) 

















拟 合 模型 时 ， 我 们 需要 给 参数 表 赋 初 值 并 将 其 传递 给 leastsq0) 函 数 ， 有 具体 如 下 。 











def fit(data): 
pO =. [.5, 0.5] 
params = leastsq(error, p0, args- (data[10:], data[9:-1], data[:-10])) [0] 
return params 





下 面 在 部 分 数据 上 训练 该 模型 。 
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cutoff 
params = fit(sunspots[:cutoff]) 


.9 * len (sunspots) 
print "Params", params 


以 下 是 得 到 的 参数 。 


Params [ 0.67172672 0.33626295 





























Root mean square error 22.8148122613 





Mean absolute error 17.6515446503 


























Mean absolute percentag rror 60.7817800736 


Symmetric Mean absolute percentag 





rror 34.9843386176 


Coefficient of determination 0.799940292779 











最 终结 果 如 图 7-$ 所 示 。 


有 了 这 些 参数 ， 就 可 以 绘 出 预测 值 并 计算 各 个 指标 。 下 面 是 得 到 的 指标 值 。 





太阳 活动 数据 





0 
1975 1980 1985 1990 
年 份 


1995 





2000 2005 2010 








图 7-5 


许多 预测 看 起 来 几乎 命中 ， 而 另 一 些 则 相去 甚 远 


但 也 不 算 很 烂 ， 介 于 两 者 之 间 。 








以 下 代码 摘自 本 书 代 码 包 中 的 ch-07.ipynb 文件 。 


from scipy.optimize import leastsq 
import statsmodels.api as sm 
import matplotlib.pyplot as plt 
import numpy as np 


。 总 的 来 说 ， 拟 合 





效果 不 是 很 到 
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def model(p, x1, x10): 
pl, pl0- p 
return pl * x1 -* pl10 * x10 


def error( 


return data - model (p, 


p, 


data, x1, x10): 


x1, x10) 


def fit(data): 
pO s [.5, 0.5] 
params = leastsq(error, p0, args- (data[10:], data[9:-1], data[:-10])) [0] 





return 


data loader 
sunspots = 
cutoff 


params 


prin 


pred 


suns 


actual 


prin 


np.mean (np. 














ARMA 模型 由 自 回 归 模 型 和 移动 平均 模型 
动 平均 模型 时 ， 我 们 通常 假定 随机 变量 为 噪声 分 量 的 线性 组 合 与 时 间 序 列 的 均值 之 和 。 


params [0] 
pots[cutoff-10:-10] 


t ("Root mean square error", 


params 


sm.datasets.sunspots.load pandas() 
data loader.data["SUNACTIVITY"].values 


.9 * len (sunspots) 
fit(sunspots[:cutoff]) 
t ("Params", 


params) 


* 


* sunspots[cutoff-1:-1] + params [1] 


sunspots[cutoff:] 


np.sqrt(np.mean((actual - pred) ** 2))) 








print("Mean absolute error", np.mean(np.abs(actual - pred))) 
print("Mean absolute percentag rror", 100 * np.mean(np.abs(actual - 
pred)/actual)) 

mid = (actual + pred)/2 

print("Symmetric Mean absolute percentag fror", 100 * 


abs (actual - pred) /mid)) 








print("Coefficient of determination", 1 - ((actual - pred) ** 2).sum()/ 
((actual - actual.mean()) ** 2).sum()) 

year range = data loader.data["YEAR"].values[cutoff:] 

plt.plot(year range, actual, 'o', label-"Sunspots") 

plt.plot(year range, pred, 'x', label-"Prediction") 

plt.grid(True) 

plt.xlabel("YEAR") 

plt.ylabel("SUNACTIVITY") 

plt.legend() 

plt.show() 


7.7 ARMA 模型 




















结合 而 成 ， 常 





于 时 间 序 列 的 预测 。 使 用 移 
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提示 

自 回 归 模 型 和 移动 平均 模型 可 以 具有 不 同 的 阶 数 。 一 
般 来 说 ， 我 们 能 够 定义 一 个 具有 pp 个 自 回 归 项 和 g 个 
移动 平均 项 的 ARMA 模型 ， 如 下 所 示 。 


p 
x =c+ T aga +> Die 46 








正如 自 回 归 模 型 公 上 面 的 公式 中 也 含有 常数 部 分 和 白 噪声 部 分 。 然 而 ， 这 里 
还 要 设法 拟 合 后 面 的 噪声 部 分 


幸运 的 是 ， 我 们 可 以 使 用 statsmodelssm.tsa.ARMA() 例 程 进行 此 类 分 析 。 下 面 使 用 
ARMA(10,1) 模 型 来 拟 合 数据 ， 代 码 如 下 。 












































model = sm.tsa.ARMA(df, (10,1)).fit() 


我 们 进行 预测 Cstatsmodels 模块 使 用 了 许多 字符 串 )。 








prediction = model.predict('1975', str(years[-1]), dynamic-True) 








最 终结 果 如 图 7-6 所 示 。 
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图 7-6 
































坦白 地 说 ， 拟 合 效果 很 差 ， 原因 是 该 模型 对 数据 过 拟 合 了 。 在 7.6 节 中 ， 这 个 简单 模 
型 的 表现 要 更 好 一 些 。 下 面 的 示例 代码 摘自 本 书 代 码 包 中 的 ch-07.ipynb 文件 











o 





7.8 生成 周期 信号 


import pandas as pd 
import matplotlib.pyplot as plt 
import statsmodels.api as sm 


import datetime 


data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
years - df["YEAR"].values.astype(int) 





df.index = pd.Index(sm.tsa.datetools.dates from range(str(years[0]), 
str(years[-1]))) 
del df["YEAR"] 





model = sm.tsa.ARMA(df, (10,1)).fit() 


prediction = model.predict('1975', str(years[-1]), dynamic-True) 


df['1975':].plot() 

prediction.plot(style-'--', label-'Prediction') 
plt.legend() 

plt.show() 


7.8 生成 周期 信号 
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许多 自然 现象 就 像 精 确 的 时 钟 一 样 ， 具 有 规律 性 ， 并 且 值 得 信赖 。 而 有 些 自然 现象 ， 
则 会 表现 出 一 些 看 上 去 非常 规则 的 模式 。 通 过 希 尔 伯 特 - 黄 变 换 (Hilbert-Huang transform), 










































































一 个 科学 家 小 组 发 现 太 阳 黑 子 活动 具有 3 个 不 同 的 周期 。 这 3 个 周期 的 持续 时 间 大 致 
为 11 年 、22 年 和 100 年 。 一 般 情况 下 ， 我 们 使 用 正弦 函数 之 类 的 三 角 函 数 来 模拟 周 


其 信号。 当然， 这些 函数 我 们 在 


因 





这 种 方法 只 需要 对 自 回 





















































FPF 学 时 就 学 过 了 。 对 于 本 例 来 说 ， 这 些 知 识 就 是 够 了 。 




















为 这 里 有 3 个 周期 ， 所 以 看 上 去 通过 3 个 正弦 函数 线性 组 合成 一 个 模型 比较 合 型 
归 模 型 的 代码 稍 作 修 改 。 下 列 代码 摘自 本 书 代 码 包 中 的 









































periodic.py 文件 。 


from scipy.optimize import leastsq 
import statsmodels.api as sm 
import matplotlib.pyplot as plt 
import numpy as np 
def model(p, t): 
C, "pl, fl, phil ;p2; £2y pHi2, p3, £9, phi 9 p 











E o 
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return C * pl * np.sin(fl * t * phil) * p2 * np.sin(f2 * t * phi2) *p3 * 
np.sin(f3 * t + phi3) 





def error(p, y, t): 
return y - model(p, t) 


def fit(y, t): 
pO = [y.mean(), 0, 2 * np.pi/11, 0, 0, 2 * np.pi/22, 0, 0, 2 * 
np.pi/100, 0] 





params = leastsq(error, p0, args-(y, t))[0] 
return params 
data loader = sm.datasets.sunspots.load pandas () 
sunspots = data loader.data["SUNACTIVITY"].values 
years = data loader.data["YEAR"].values 
cutoff = .9 * len(sunspots) 
params = fit(sunspots[:cutoff], years[:cutoff]) 


print("Params", params) 

pred = model(params, years[cutoff:]) 

actual = sunspots[cutoff:] 

print("Root mean square error", np.sqrt(np.mean((actual - pred) ** 2))) 
print("Mean absolute error", np.mean(np.abs(actual - pred))) 
print("Mean absolute percentag rror", 100 * np.mean(np.abs(actual - 
pred) /actual)) 

mid = (actual + pred)/2 

print("Symmetric Mean absolute percentag rror", 100 * 








np.mean(np.abs(actual - pred)/mid)) 
print("Coefficient of determination", 1 - ((actual - pred) ** 2).sum()/ 
((actual - actual.mean()) ** 2).sum()) 





year range = data loader.data["YEAR"].values[cutoff:] 
plt.plot(year range, actual, 'o', label-"Sunspots") 
plt.plot(year range, pred, 'x', label-"Prediction") 
plt.grid(True) 

plt.xlabel("YEAR") 

plt.ylabel("SUNACTIVITY") 

plt.legend() 

















plt.show() 


输出 内 容 如 下 。 





Params [ 47.18800285 28.89947419 0.56827284 6.51168446 4.55214999 
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0.29372077 -14.30926648 -18.16524041 0.06574835 -4.37789602] 
Root mean square error 59.5619175499 

Mean absolute error 44.5814573306 

Mean absolute percentag rror 65.1639657495 








Symmetric Mean absolute percentag rror 78.4477263927 
Coefficient of determination -0.363525210982 

















第 一 行 展 示 的 是 模型 的 相关 系数 。 这 里 的 平均 绝对 误差 是 44, 表示 各 个 预测 值 与 
真实 值 之 间 平 均 相 差 多 大 。 为 了 更 好 地 拟 合 数据 ， 判 定 系数 应 尽量 接近 1。 可 是 ， 实 
际 上 得 到 的 判定 系数 却 是 一 个 负 值 ， 这 离 我 们 的 要 求 相去 甚 远 。 最 终结 果 如 图 7-7 
所 示 。 
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图 7-7 


7.9 传 里 时 分 析 














傅 里 叶 分 析 是 建立 在 以 数学 家 Joseph Fourier 命名 的 健 里 叶 级 数 之 上 的 一 种 数学 方法 。 
傅 里 叶 级 数 是 一 种 表示 函数 的 数学 方法 ， 它 通常 使 用 正弦 函数 和 余弦 函数 构成 的 无 穷 级 数 
来 表示 函数 。 这 些 函 数 既 可 以 是 实 值 函数 ， 也 可 以 是 虚 值 函数 。 
S Lg yit" 
对 于 健 里 叶 分 析 来 说 ， 最 高 效 的 算法 非 快速 傅 里 叶 变 换 (Fast Fourier Transform, FFT) 
英 属 。 这 个 算法 已 经 在 SciPy 与 NumPy 这 两 个 库 中 实现 了 。 
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到 一 个 
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当 应 用 于 时 间 


理 与 时 间 序 列 


























谱 就 是 由 代表 不 同 


Jii p 





HAPUS ERE, A HL Ar AT fé PES PARE ER R S81 3039. TE 
频谱 。 对 于 某 些 频谱 来 说 ， 它 们 会 在 频谱 的 特定 频率 上 表现 为 一 些 尖 ! 
音符 构成 的 ， 其 中 A 














DE 5A 








“~ 白光 也 是 由 不 同 频率 的 所 有 可 见 光 混合 

















就是 南音 了 时 所 产生 鬼才 





昔 助 钢琴 之 类 的 乐器 ， 我 们 不 仅 可 























可 以 演奏 出 其 他 音符 














WEE SEIPDE ROS S ARI 





。 白 噪声 是 














样 的 。 
在 下 面 的 代码 中 ， 我 们 要 导入 两 个 函数 (具体 参阅 ch-07.ipynb 文件 )。 





谱 中 


乞 ， 





用 于 实 


from scipy.fftpack import rfft 





而 成 的 ， 





from scipy.fftpack import fftshift 


















































音符 的 声 高 为 440Hz。 实 际 ] 




















以 演奏 出 








， 从 而 得 
峰 。 例 如 ， 
E, A 音符 





A 


而 且 这 些 信和 号 
这 些 可 见 光 的 功率 也 是 一 




















































































































这 里 ，rfft0 函 数 可 以 对 实 值 数据 进行 FFT。 此 外 ,我 们 还 可 以 使 用 FFTO 函 数 ， 但 是 它 
实 值 数据 集 时 ， 会 发 出 警告 。 函 数 fftshift() 可 以 把 零 频 分 量 (数据 的 平均 值 ) 移动 到 频 
央 ， 这 样 看 起 来 会 更 舒服 一 些 。 为 了 便于 理解 ， 下 面 我 们 以 正弦 波 为 例 进行 讲解 。 首 
我 们 创建 一 个 正弦 波 ， 然 后 对 其 实施 FFT， 具 体 代码 如 下 。 

t = np.linspace(-2 * np.pi, 2 * np.pi, len(sunspots)) 


mid = np.ptp(sunspots)/2 


sine = mid + mid * np.sin(np.sin(t)) 


sine fft = np.abs(fftshift(rfft(sine))) 


print "Index of max sine FFT", 








下 面 输出 的 是 对 应 于 最 大 振幅 





np.argsort(sine fft)[-5:] 


的 相应 索引 。 


Index of max sine FFT [160 157 166 158 154] 














我 们 对 太阳 黑子 数据 进行 FFT。 


transformed = np.abs(fftshift 


print "Indices of max sunspo 





通过 下 列 索引 我 们 可 以 看 出 ， 频 谱 








Indices of max sunspots FFT 


我 们 看 到 ， 这 里 154 处 也 有 





[205 212 215 209 154 


一 个 最 大 峰值 。 最 终结 果 如 图 


(rfft(sunspots))) 


中 有 5 个 大 峰值 。 














7-8 所 示 。 


ts FFT", np.argsort (transformed) [-5:] 
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一 太阳 黑子 活动 数值 
— Sine žk 
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— 传 里 叶 变 换 后 的 Sine 丙 数 
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7-8 
下 面 的 代码 摘自 本 书 代 码 包 中 的 ch-07.ipynb 文件 。 


import numpy as np 

import statsmodels.api as sm 
import matplotlib.pyplot as plt 
from scipy.fftpack import rfft 
from scipy.fftpack import fftshift 





data loader = sm.datasets.sunspots.load pandas () 
sunspots = data loader.data["SUNACTIVITY"].values 


t = np.linspace(-2 * np.pi, 2 * np.pi, len(sunspots)) 
mid - np.ptp(sunspots)/2 
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sine = mid + mid * np.sin(np.sin(t)) 


sine fft = np.abs(fftshift(rfft(sine))) 


print("Index of max sine FFT", 


plt.subplot (311) 


print("Indices of max sunspots FFT", 


transformed = np.abs(fftshift(rfft(sunspots))) 


plt.plot(sunspots, label-"Sunspots") 
plt.plot(sine, lw-2, label-"Sine") 





plt.grid(True) 
plt.legend() 
plt.subplot (312) 


plt.grid(True) 





plt.legend() 

lt.subplot (313) 
lt.plot(sine fft, lw-2, 
.grid(True) 
lt.legend() 








'O0 UO 'O 'O © 
a 


lt.show() 


1.10 NİR 


在 7.9 节 中 ， 我 们 绘制 了 数据 集 的 振幅 频谱 。 而 物理 信号 的 功率 频谱 可 以 直观 展现 出 


该 信号 的 能 量 分 布 。 对 于 前 面 的 代码 ， 我 们 稍 作 修改 就 能 用 来 绘 























将 某 些 值 取 平方 ， 代 码 如 下 。 














plt.plot(transformed ** 2, 








plt.plot(transformed, label-2"Transformed Sunspots") 


label-2"Transformed Sine") 








np.argsort(sine fft)[-5:]) 











label-"Power Spectrum") 


np.argsort (transformed) [-5:]) 























出 功率 频谱 。 

















LAMB E 





相位 谱 可 以 为 我 们 直观 展示 相位 ， 即 正弦 函数 的 起 始 角 ， 相 应 代码 如 下 。 





plt.plot (np.angle (transformed), 




















x] 7-9 所 示 。 


sin 
NVS 
4. 
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至 于 完整 的 代码 ， 请 读者 参阅 本 书 代码 包 中 的 ch-07.ipynb 文 伯 





label="Phase Spectrum") 


Fr 
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一 一 太阳 黑子 活动 数值 


一 一 功率 频谱 














7.11 滤波 








滤波 是 一 种 信号 处 理 技术 ， 可 以 对 信号 的 某 些 部 分 进行 删 减 或 抑制 。 应 用 FFT 后 ， 我 
们 就 可 以 对 高 频 或 低频 进行 过 滤 或 者 设法 删除 白 噪声 了 。 白 噪声 是 功率 频谱 为 常数 的 一 个 
随机 信号 ， 因 此 ， 它 不 包含 任何 有 用 信息 。scipy.Signal 程序 包 为 滤波 提供 了 许多 相应 的 实 
用 程序 。 下 面 的 例子 将 展示 部 分 函数 的 使 用 方法 。 
。 中 值 滤波 器 (Median Filter) 可 以 用 来 计算 滚动 窗口 中 数据 的 中 值 ， 这 个 滤波 器 是 
由 medfilt0 函 数 实现 的 ， 我 们 可 以 通过 可 选 参数 来 指定 窗口 大 小 。 
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。 Wiener 滤波 器 能 够 通过 统计 数值 来 删除 噪音 , 对 于 一 TRR g0-5—^ i8 5 s(t), 
我 们 可 以 通过 (g * [s+m)(b 来 计算 其 卷 积 。 这 个 滤波 器 是 通过 wiener() SA], 它 
同样 也 有 一 个 指定 窗口 大 小 的 可 选 参数 。 

。 detrend 滤波 器 可 以 用 来 删除 趋势 。 它 可 以 是 一 个 线性 或 者 不 变 趋势 。 这 个 滤波 器 
是 由 detrend0O) 函 数 实现 的 。 


下 列 代码 摘自 本 书 代 码 包 中 的 ch-07.ipynb 文件 。 






































import statsmodels.api as sm 
import matplotlib.pyplot as plt 
from scipy.signal import medfilt 
from scipy.signal import wiener 
from scipy.signal import detrend 


data loader = sm.datasets.sunspots.load pandas () 
sunspots = data loader.data["SUNACTIVITY"].values 
years = data loader.data["YEAR"].values 























plt.plot (years, sunspots, label-"SUNACTIVITY") 

plt.plot (years, medfilt (sunspots, 11), lw=2, label="Median") 
plt.plot (years, wiener (sunspots, 11), '--', lw-2, label="Wiener") 
plt.plot (years, detrend (sunspots), lw-3, label="Detrend") 
plt.xlabel ("YEAR") 

plt.grid(True) 

plt.legend() 

plt.show() 











最 终结 果 如 图 7-10 所 示 。 








— 太阳 活动 数值 
— 中 值 滤波 
==- Wiener 滤 波 
150 1 一 Detrend 滤 波 
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7.12 小 结 





本 章 的 时 间 序 列 示例 使 用 了 年 度 太 阳 黑 子 周 期 数据 。 

我 们 介绍 了 一 个 比较 常见 的 问题 的 解决 方法 ， 即 在 同一 个 时 间 序 列 中 找 出 一 个 值 与 固 
定 周期 数 之 前 的 另 一 个 数据 点 或 者 一 组 数据 点 之 间 的 关系 。 

对 于 移动 平均 法 ， 需 要 指定 一 个 窗口 来 明确 规定 向 前 可 以 看 到 的 数据 ， 此 后 ， 窗 口 每 
一 次 前 移 一 个 周期 ， 都 要 计算 一 次 窗口 内 数据 的 平均 值 。 在 Pandas 的 应 用 程序 接口 中 ， 
rolling window() 函 数 为 我 们 提供 了 许多 窗口 函数 的 功能 ， 其 中 字符 串 参 数 win type 取 不 同 
的 值 ， 就 对 应 不 同 的 窗口 函数 。 

协 整 类 似 于 相关 性 ， 是 一 个 度量 两 个 时 间 序 列 之 间 的 关系 的 指标 。 进 行 回 归 分 析 时 ， 
我 们 经 常 遇 到 过 拟 合 的 问题 。 这 个 问题 表现 为 ， 模 型 对 于 样本 拟 合 的 效果 非常 理想 ， 但 是 
当 引 入 新 数据 点 后 ， 效 果 却 变 得 很 糟 烧 。 为 了 对 模型 进行 评估 ， 我 们 可 以 求 取 适 当 的 评价 
指标 。 

对 于 数据 分 析 而 言 ， 数 据 库 是 一 个 非常 重要 的 工具 。 自 从 20 世纪 70 年 代 开 始 ， 关 系 
型 数据 库 便 开始 流行 起 来 。 XE, NoSQL 数据 库 已 经 变 成 一 个 可 行 的 替代 方案 。 第 8 章 将 会 
介绍 各 种 相关 的 数据 库 〈 包 括 关 系 型 与 NoSQL 数据 库 ) 及 其 应 用 程序 接 
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在 本 章 中 ， 我 们 将 为 读者 介绍 各 种 数据 库 及 其 应 用 编程 接口 。 这 里 所 说 的 数据 库 包 括 
关系 型 数据 库 以 及 非 关 系 型 (NoSQL ) 数据 库 。 关 系 型 数据 库 是 由 数据 表 汇 集 而 成 的 ， 更 
重要 的 是 ， 这 些 数据 表 中 的 数据 是 按照 数据 项 之 间 的 关系 进行 组 织 的 。 当 然 ， 这 里 所 说 的 
关系 ， 也 可 以 是 某 个 数据 表 中 的 行 数据 与 其 他 数据 表 中 的 行 数据 之 间 的 关系 。 关 系 型 数据 
库 不 仅 涉 及 数据 表 之 间 的 关系 ， 首 先 ， 它 要 处 理 同一 个 数据 表 中 不 同 列 之 间 的 关系 (很 明 
显 ， 一 个 数据 表 内 的 各 列 毫 无 疑问 是 相关 的 );， 其 次 ， 它 还 要 处 理 数 据 表 之 间 的 关系 。 
伴随 着 大 数据 和 Web 应 用 的 流行 ， 非 关系 型 (Not Only SQL, NoSQL) 数据 库 也 开始 
EREK. NoSQL 系统 将 成 为 类 SQL 事实 上 的 标准 。NoSQL 数据 库 的 主 则 在 于 ， 使 用 比 
关系 模型 更 为 灵活 的 方式 来 存储 数据 。 这 就 可 能 意味 着 ， 无 需 数据 库 模式 或 者 灵活 的 数据 
库 模 式 。 当 然 ， 灵 活性 和 速度 也 是 有 代价 的 ， 例 如 无 法 始终 保证 事务 的 一 致 性 。NoSQL 数 
据 库 可 以 利用 面向 列 的 方法 以 字典 的 形式 来 储存 数据 ， 这 些 数据 对 象 包 括 文 档 、 对 象 、 图 、 
元 组 ， 甚 至 这 些 对 象 的 组 合体 。 本 章 将 要 介绍 的 主题 如 下 。 


。 基于 sqlite3 的 轻 量 级 访问 
。 通过 Pandas 访问 数据 库 
e SQLAlchemy 



































































































































































































































e Pony ORM 

e Dataset: 懒 人 数据 库 
。 PyMongo 与 MongoDB 

。 利用 Redis 存储 数据 

e. 利用 memcache 存储 数据 
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e Apache Cassandra. 


8.1 基于 sqlite3 的 轻 量 级 访问 

















SQLite 是 一 款 非 常 流行 的 关系 型 数据 库 , dE RSS. 因此 被 大 量 应 用 程序 广泛 采纳 ， 
如 Mozilla Firefox 等 浏览 器 。 安 卓 系 统 上 的 大 部 分 应 用 的 数据 存储 也 是 通过 SQLite 完成 的 。 

sqlite3 是 Python 标准 发 行 版 自 带 的 一 个 模块 ,可 以 用 于 处 理 SQLite 数据 库 。 使 用 sqlite3 
模块 时 ， 数 据 库 既 可 以 存放 到 文件 中 ， 也 可 以 保留 在 内 存 中 。 本 例 采 用 后 一 种 方式 。 下 面 
我 们 导入 sqlite3， 代 码 如 下 。 













































































import sqlite3 

















首先 ， 连 接 数 据 库 。 如 果 和 希望 把 数据 库存 到 文件 
可 以 通过 下 列 方式 将 数据 库 留 在 内 存 中 。 





那么 必须 提供 一 个 文件 名 ， 和 否则， 








H 
L 
WH 























with sqlite3.connect(":memory:") as con: 

















上 面 使 用 了 Python 的 with 语句 。 需 要 注意 的 是 ,这 个 语句 依赖 于 特定 上 下 文 管理 器 类 
HW] exit 0 方法 的 存在 。 如 果 使 用 了 这 个 语句 ， 我 们 就 无 需 显 式 关 闭 数 据 库 连 接 了 。 这 是 
因为 上 下 文 管理 器 会 自动 蔡 我 们 关闭 连接 。 连 接 到 数据 库 后 ， 我 们 还 需要 一 个 游标 。 游 标 
在 数据 库 中 的 作用 ， 至 少 从 概念 上 来 讲 ， 类 似 于 文本 编辑 器 中 的 光标 。 注 意 ， 这 个 游标 也 
需要 由 我 们 来 关闭 。 

下 面 开 始 创建 游标 ， 代 码 如 下 。 













































































c = con.cursor() 




















现在 ， 可 以 直接 创建 数据 表 了 。 通 常 ， 必 须 首 先 创 建 一 个 数据 库 ， 或 数据 库 专 家 已 经 蔡 
我 们 建立 了 一 个 数据 库 。 在 本 章 中 ， 我 们 不 仅 需 要 了 解 Python， 而 且 还 得 懂 SQL. SQL 是 一 
种 专门 用 来 查询 和 操作 数据 库 的 语言 。 限于 篇 幅 , 这 里 不 可 能 对 SQL 进行 详尽 地 介绍 。 不 过 ， 
只 要 稍微 努力 ， 读 者 就 能 够 掌握 基本 的 SQL。 为 了 创建 数据 表 ， 我 们 需要 向 游标 传递 一 个 
SQL 字符 串 ， 有 具体 如 下 。 






























































































































































c.execute('''CREATE TABLE sensors (date text, city text, 





code text, sensor id real, temperature real)''') 














上 面 的 代码 会 创建 一 个 包含 很 多 列 的 数据 表 , 具体 名 称 为 sensors。 在 上 面 的 字符 串 中 ， 
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text 和 real 用 来 表明 字符 串 和 数值 的 类 型 。 通 过 上 面 的 代码 ， 我 们 就 能 创建 一 个 可 用 的 数 
据 表 了 。 如 果 创 建 过 程 发 生 错误 ， 我 们 就 会 收 到 相应 的 出 错 提示 。 列 出 数据 库 中 数据 表 的 
方法 与 数据 库 本 身 紧密 相关 。 通 常 ， 有 一 个 或 一 组 专门 的 数据 表 来 存放 用 户 数 据 表 的 元 数 
据 。 下 面 我 们 列 出 SQLite 数据 表 ， 具 体 如 下 。 

for table in c.execute("SELECT name FROM sqlite master 


WHERE type - 'table'"): 
print("Table", table[0]) 











































































































L 





正如 所 料 ， 我 们 将 得 到 如 下 的 输出 。 











Table sensors 











现在 ， 我们 要 插入 并 查询 一 些 随 机 数据 ， 具 体 如 下 。 




















c.execute("INSERT INTO sensors VALUES ('2016-11-05', 
'Utrecht','Red',42,15.14) ") 

c.execute ("SELECT * FROM sensors") 

print c.fetchone() 




















下 面 我 们 输出 插入 的 记录 。 





(u'2016-11-05', u'Utrecht', u'Red', 42.0, 15.14) 


























当 不 再 需要 某 个 数据 表 时 ， 我 们 就 可 以 将 其 删除 了 。 需 要 注意 的 是 ， 删 除 是 一 项 非常 
危险 的 操作 ， 因 此 ， 我 们 必须 绝对 肯定 再 也 用 不 到 这 个 数据 表 了 。 因 为 数据 表 一 旦 被 删 ， 
就 无 法 恢复 了 ， 除 非 之 前 已 经 做 好 了 备份 。 下 面 的 代码 将 删除 数据 表 并 显示 删除 操作 执行 
后 所 剩 数据 表 的 数量 ， 有 具体 如 下 。 


















































con.execute("DROP TABLE sensors") 
print ("f£ of tables", c.execute("SELECT COUNT (*) 
FROM sqlite master WHERE type = 'table'").fetchone()[0]) 
































输出 内 容 如 下 。 





# of tables 0 


下 列 代码 摘自 本 书 代码 包 中 的 ch-08.ipynb 文件 。 





import sqlite3 





with sqlite3.connect(":memory:") as con: 
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c = con.cursor() 














c.execute ('''CREATE TABLE sensors (date text, city text, 





code text, sensor id real, temperature real)''') 














for table in c.execute("SELECT name FROM sqlite master 
WHERE type = 'table'"): 
print("Table", table[0]) 




















c.execute("INSERT INTO sensors VALUES ('2016-11-05', 
'Utrecht','Red',42,15.14) ") 
c.execute ("SELECT * FROM sensors") 

















print (c.fetchone()) 





con.execute("DROP TABLE sensors") 




















print("£4 of tables", c.execute ("SELECT COUNT(*) 
FROM sqlite master WHERE type = 'table'").fetchone()[0]) 

















c.close() 
8.2 通过 Pandas 访问 数据 库 


我 们 可 以 向 Pandas 提供 一 个 数据 库 连 接 ， 如 前 面 例子 中 的 连接 或 SQLAlchemy 连接 。 
关于 SQLAlchemy 连接 ， 我 们 将 在 本 章 后 面部 分 进行 讲解 。 正 如 第 7 章 所 述 ， 这 里 也 要 用 
到 statsmodels 模块 的 太阳 黑子 活动 数据 。 为 了 加 载 数据 ， 我 们 可 以 使 用 下 列 代码 。 

(1) 创建 元 组 列表 ， 以 构建 Pandas DataFrame. 







































































rows = [tuple(x) for x in df.values] 














与 之 前 的 示例 不 同 ， 这 里 要 创建 的 是 一 个 未 规定 数据 类 型 的 数据 表 ， 代 码 如 下 。 

















con.execute("CREATE TABLE sunspots(year, sunactivity)") 














(2) 我 们 知道 ，executemany() 方 法 可 以 执行 多 条 语句 。 就 本 例 而 言 ， 我 们 要 插入 一 些 
记录 ， 这 些 记录 来 自 元 组 列表 。 下 面 将 这 些 数据 行 插入 数据 表 并 显示 行 数 。 























con.executemany("INSERT INTO sunspots(year, sunactivity) VALUES 
(9, T)", EOWS) 
c.execute ("SELECT COUNT(*) FROM sunspots") 


print (c.fetchone ()) 




















数据 表 的 行 数 如 下 。 
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(309,) 


(3) execute) K ŽUR [El 
性 有 点 古怪 ， 而 且 与 SQLit 





是 无 歧义 的 。 下 面 我 们 删 


print("Deleted", con.execute("DELETE 





7 





2 





Lu 





H rowcount JE t 





e 版 本 密切 相关 。 男 儿 


RI 


事件 数 大 于 20 的 记录 ， 代 码 如 下 。 


R3 




















sunactivity » 20").rowcount, "rows") 


结果 如 下 。 


Deleted 217 rows 








存放 的 是 受 影响 的 数据 行 的 数量 。 这 个 属 
， 就 像 上 面 代 码 中 看 到 的 那样 ，SQL 查询 














FROM sunspots where 








(4) 如 果 把 数据 库 连 接 至 Pandas， 就 可 以 利用 read_sql0 函 数 来 执行 查询 并 返回 Pandas 
DataFrame 了 。 下 面 选择 前 1732 条 记录 ， 代 码 如 下 。 











print (read sql("SE 


L 








最 终 得 到 如 下 Pandas DataFrame. 


year sunactivity 


1700 
1701 
1702 
1707 
1708 
1709 
1710 
EBL 
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0 1714 
T. X223 
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5 
11 
16 
20 
10 

8 

3 


pO o 


1 
1 


[12 rows x 2 columns] 











ECT * FROM sunspots where year « 1732", con)) 


以 下 代码 摘自 本 书 代 码 包 中 的 ch-08.ipynb 文件 。 





import statsmodels.api as sm 


from pandas.io.sql import read sql 


import sqlite3 





with sqlite3.connect(":memory:") 


c = con.cursor() 


as con: 
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data loader = sm.datasets.sunspots.load pandas () 
df = data_loader.data 
rows = [tuple(x) for x in df.values] 











con.execute("CREATE TABLE sunspots (year, sunactivity)") 











con.executemany ("INSERT INTO sunspots (year, sunactivity) VALUES (?, 
?)", rows) 
c.execute ("SELECT COUNT (*) FROM sunspots") 
print (c.fetchone()) 



































print("Deleted", con.execute ("DELETE FROM sunspots where sunactivity > 
20").rowcount, "rows") 











print (read sql ("SELECT * FROM sunspots where year < 1732", con)) 














con.execute ("DROP TABLE sunspots") 


c.close() 


8.3 SQLAIchemy 





SQLAlchemy 以 基于 设计 模式 (design pattern) 的 对 象 关系 映射 CORMD 而 闻名 。 也 就 
是 说 ， 它 可 以 把 Python 的 类 映射 为 数据 库 的 数据 表 。 实 际 上 ， 这 意味 着 添加 了 一 个 额外 的 抽 
象 层 ， 因 此 ， 我 们 需要 使 用 SQLAlchemy 应 用 程序 接口 来 跟 数 据 库 打交道 ， 而 非 使 用 SQL 
命令 。 使 用 SQLAlchemy 的 好 处 是 ， 它 能 够 在 幕后 蔡 我 们 处 理 各 种 细节 。 不 过 ， 凡 事 有 利 绒 
NE, (EH SQLAlchemy 的 缺点 是 我 们 不 得 不 学 习 其 应 用 程序 接口 ， 同 时 ， 性 能 也 会 有 所 下 
降 。 本 节 将 学 习 如 何 安装 SQLAlchemy 以 及 如 何 通过 SQLAlchemy 填充 和 查询 数据 库 。 


8.3.1 SQLAlchemy 的 安装 和 配置 
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下 面 是 安装 SQLAlchemy 所 需 的 命令 。 


$ pip3 install sqlalchemy 











在 编写 本 书 时 ，SQLAlchemy 的 最 新 版 本 是 1.1.4。 从 其 官网 可 以 找到 SQLAlchemy 的 安 
装 程 序 和 代码 仓库 

此 外 ，SQLAIlchemy 还 有 一 个 支持 页 面 ， 在 使 用 SQLAlchemy 的 时 候 ， 需 要 定义 一 个 
超 类 ， 代 码 如 下 。 


























o 












































from sqlalchemy.ext.declarative import declarative base 
Base = declarative base() 
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本 

















节 及 后 面 几 节 中 会 使 用 一 个 带 有 两 个 数据 表 的 小 型 数据 库 ， 其 中 第 1 个 数据 表 是 关 

















于 观测 站 的 ， 第 2 个 数据 表 是 描述 观测 站 内 的 传感器 的 。 每 个 观测 站 可 以 有 0 个 、1 个 或 
者 多 个 传感器 ， 其 中 ， 每 个 观测 站 都 有 一 个 整数 ID， 这些 数字 是 由 数据 库 自 动 生成 的 。 此 
外 ， 每 个 观测 站 都 有 一 个 名 称 ， 而 且 这 个 名 称 是 唯一 的 ， 也 是 强制 性 的 。 


同时 ， 



















































































每 个 传感器 也 有 自己 的 整数 ID 。 我 们 将 记录 传感器 的 最 后 一 次 观察 值 。 这 个 值 

















可 以 是 观测 值 的 倍数 。 有 具体 情况 读者 可 以 参考 本 书 代码 包 中 的 ch-08.ipynb 代码 。 注 意 ， 我 
































们 不 必 直 接 运行 这 个 脚本 ， 因 为 它 是 供 其 他 脚本 使 用 的 。 








from sqlalchemy import Column, ForeignKey, Integer, String, Float 
from sqlalchemy.ext.declarative import declarative base 
from sqlalchemy.orm import relationship 


from sqlalchemy import create engine 


from sqlalchemy import UniqueConstraint 


Base = declarative base() 
class Station (Base): 


_ tablename = 'station' 
id = Column(Integer, primary key-True) 
name = Column(String(14), nullable-False, unique-True) 


def repr (self): 
return "Id=%d name-$s" £(self.id, self.name) 


class Sensor(Base): 


if 


| tablename = 'sensor' 

id = Column(Integer, primary key-True) 

last = Column (Integer) 

multiplier = Column (Float) 

station id = Column (Integer, ForeignKey('station.id!')) 
station = relationship (Station) 





def repr (self): 
return "Id-(:d) last-(:d) multiplier-(:.1f) station id- 
(:d)".format( 
self.id,self.last, self.multiplier, self.station id) 


name == " main ": 





8.3.2 


数据 表 的 创建 将 在 后 面 介 绍 。 本 节 先 来 准备 一 个 脚本 ， 以 便 


print("This script is used by code further down in this notebook.") 


通过 SQLAlchemy 填充 数据 库 















































j 来 填充 数据 库 〈 注 意 ， 
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不 用 直接 运行 这 个 脚本 ， 因 为 它 是 供 8.3.3 节 中 的 脚本 使 用 的 )。 通 过 DBSession 对 象 ， 可 
以 向 数据 表 中 插入 数据 。 当 然 ， 我 们 还 需要 一 个 引擎 ， 不 过 ， 引 擎 的 创建 方法 也 留 到 8.3.3 
节 介 绍 。 


























创建 DBSession 对 象 ， 代 码 如 下 。 


Base.metadata.bind = engine 





DBSession = sessionmaker (bind-engine) 
Session = DBSession() 


2. 创建 两 个 观测 站 。 


de bilt = Station(name-'De Bilt') 
session.add(de bilt) 
session.add(Station (name-'Utrecht')) 
session.commit() 

print("Station", de bilt) 








在 提交 这 个 会 话 前 ,这些 数据 行 是 不 会 被 插入 的 。 下 面 是 与 第 一 个 观测 站 有 关 的 输出 。 

















Station Id-1 name-De Bilt 





3. 同样 ， 还 要 插入 传感器 记录 ， 代 码 如 下 。 





temp sensor = Sensor(last-20, multiplier-.1, station-de bilt) 
session.add(temp sensor) 
session.commit() 


print("Sensor", temp sensor) 





这 个 传感器 位 于 第 一 个 观察 站 中 ， 所 以 ， 将 得 到 如 下 输出 内 容 。 








Sensor Id-1 last-20 multiplier-0.1 station id-1 

















数据 库 填充 代码 可 以 在 本 书 代码 包 中 的 ch-08.ipynb 文件 中 找到 。 同 样 ， 这 个 脚本 也 无 
需 直接 运行 ， 它 也 是 供 其 他 脚本 使 用 的 。 填 充 代码 如 下 。 



































from sqlalchemy import create engine 
from sqlalchemy.orm import sessionmaker 


from alchemy entities import Base, Sensor, Station 


def populate (engine): 
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Base.metadata.bind = engine 


DBSession = sessionmaker (bind-engine) 
session = DBSession() 





de bilt = Station(name-'De Bilt') 
Session.add(de bilt) 
session.add(Station (name-'Utrecht!')) 
session.commit() 

print("Station", de bilt) 





temp sensor - Sensor(last-20, multiplier-.1, station-de bilt) 
session.add(temp sensor) 
session.commit() 


print("Sensor", temp sensor) 


Lf name == " main ": 


print("This script is used by code further down in this notebook") 





8.3.3 通过 SQLAlchemy 查询 数据 库 


下 面 通过 URI 来 创建 引擎 ， 代 码 如 下 。 




















ngine = create engine('sqlite:///demo.db') 





通过 这 个 URI， 我 们 规定 要 使 用 的 引擎 为 SQLite， 同 时 指出 要 把 数据 存放 到 文件 
demo.db 中 。 然 后 ， 利 用 刚才 创建 的 引擎 来 创建 两 个 数据 表 ， 即 station 和 sensor。 相 应 代 
码 如 下 。 














Base.metadata.create all(engine) 


对 于 SQLAlchemy 查询 , 我 们 也 需要 一 个 DBSession 对 象 ， 这 个 对 象 在 8.3.2 节 已 经 介 
过 了 o 


下 面 选择 数据 表 station 中 的 第 一 行 数据 。 





MR 

















station = session.query(Station).first() 








下 面 代码 用 于 选择 所 有 观测 站 ， 具 体 如 下 。 


print "Query 1", session.query(Station).all() 
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下 面 是 输出 结果 。 
Query 1 [Id-1 name-De Bilt, Id-2 name-Utrecht] 











选择 所 有 传感器 ， 代 码 如 下 。 





print("Query 2", session.query(Sensor).all()) 





下 面 是 输出 结果 。 


Que 


ry 2 [Id-1 last=20 multiplier-0.1 station id-1] 


下 面 ， 选 择 第 一 个 观测 站 的 第 一 个 传感器 ， 代 码 如 下 。 











print("Query 3",session.query(Sensor).filter(Sensor.station -- 


station).one()) 





下 面 是 输出 结果 。 


Query 3 Id-1 last=20 multiplier=0.1 station id-1 





还 可 以 使 用 p 





andas 的 read_sql() 方 法 进行 查询 ， 上 基体 如 下 。 














print (read sql("SELECT * FROM station", engine.raw connection()) 


Af 


时 内容 如 下 。 





id name 
1 De Bilt 
2 Utrecht 
rows x 2 columns] 


以 下 代码 摘自 


fro 
fro 
fro 
fro 
imp 





本 书 代码 包 中 的 ch-08.ipynb 文件 。 


m alchemy entities import Base, Sensor, Station 


m popula 
m sqlalc 
m sqlalc 
ort os 


te db import populate 
hemy import create engine 





hemy.orm import sessionmaker 


from pandas.io.sql import read sql 


ate engine('sqlite:///demo.db') 





ngine = cr 
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Base.metadata.create all(engine) 


populate (engine) 


Base.metadata.bind - engine 


DBSession = sessionmaker() 


DBSession.bind = engine 


session 


station 


= DpBSession() 


= session.query(Station).first() 


print("Query 1", session.query(Station).all()) 


print("Query 2", session.query(Sensor).all()) 


print("Query 3", session.query(Sensor).filter(Sensor.station -- 


station) 


.one()) 











print(read sql("SELECT * FROM station", engine.raw connection())) 


try: 





os.remove('demo.db') 
print("Deleted demo.db") 
except OSError: 


pass 





8.4 Pony ORM 








Pony ORM 是 Python 编程 语言 下 的 另 一 款 ORM 程序 包 。Pony ORM 是 用 纯 Python 编 
写 的 ， 它 能 自动 进行 查询 优化 ， 同 时 提供 了 一 个 图 形 用 户 界 面 的 数据 库 模 式 编辑 器 。 此 外 ， 
它 还 支持 自动 事务 处 理 、 自 动 缓存 和 组 合 关键 字 (Composite Keys)。 有 了 Pony ORM, R 








们 就 可 以 通过 
SQL。 

































































Python 的 生成 器 表达 式 来 查询 数据 库 了 。 当 然 ， 这 些 生成 器 最 终 都 会 转换 为 





安装 这 个 程序 库 的 命令 如 下 。 








$ pip3 install pony 

















本 例 中 我 们 将 用 到 这 个 程序 包 ， 因 此 需要 将 其 导入 。 下 面 的 导入 代码 摘自 本 书 代码 包 























中 的 pony ride.py 文件 。 


from pony.orm import Database, db session 


import statsmodels.api as sm 


下 面 我 们 来 创建 一 个 in-memory 型 的 SQLite 数据 库 。 
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db = Database('sqlite', ':memory:') 






































下 面 通 过 Pandas 的 write_frameO0 函 数 来 加 载 太 阳 黑 子 数据 并 将 其 写 入 数据 库 。 有 具体 代 
码 如 下 。 























with db session: 
data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
df.to sql("sunspots", db.get connection()) 
print(db.select("count(*) FROM sunspots")) 











这 个 太阳 黑子 数据 表 的 行 数 如 下 。 


[309] 


8.5 Dataset: 懒 人 数据 库 











Dataset 是 一 个 Python 库 ， 实 际 上 就 是 SQLAlchemy 的 一 个 包装 器 。 这 个 库 的 开发 主 
旨 是 尽量 做 到 易于 使 用 ， 也 就 是 尽量 让 懒 人 满意 。 


安装 dataset 的 命令 如 下 。 
































$ pip3 install dataset 











创建 并 连接 一 个 in-memory 型 的 SQLite 数据 库 ， 代 码 如 下 。 








import dataset 





db = dataset.connect('sqlite:///:memory:') 





创建 一 个 名 为 books 的 数据 表 ， 代 码 如 下 。 


table = db["books"] 














事实 上 ， 在 数据 库 中 这 个 表 尚 未 创建 ， 因 为 我 们 还 没有 为 其 指定 任何 列 。 我 们 只 是 创 
建 了 一 个 相关 的 对 象 。 我 们 调用 insert0 方 法 时 ， 会 自动 创建 数据 表 模 式 ， 同 时 ， 向 insert() 
方法 传递 含有 书 名 的 字典 ， 有 具体 代码 如 下 。 



































table.insert(dict(, author-'Ivan Idris')) 
table.insert (dict(, 

author-'Ivan Idris')) 

table.insert (dict(, 
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author-'Ivan Idris')) 





通过 下 列 代码 ， 可 以 显示 数据 表 各 行 的 内 容 。 





for row in db['books']: 
print(row) 


结果 如 下 。 


«dataset.persistence.util.ResultIter object at 0x10d4bf550> 
OrderedDict([('id', 1), ('title', "NumPy Beginner's Guide"), ('author', 
"Ivan Idris')]) 

OrderedDict([('id', 2), ('title', 'NumPy Cookbook'), ('author', 'Ivan 
Idris')]) 

OrderedDict([('id', 3), ('title', 'Learning NumPy'), ('author', 'Ivan 
Idris')]) 


























现在 ， 我 们 可 以 轻松 显示 该 数据 库 中 各 个 数据 表 了 ， 代 码 如 下 。 





print("Tables", db.tables) 








上 述 代 码 的 输出 结果 如 下 。 


Tables ['books'] 


下 面 的 代码 摘自 本 书 代码 包 中 的 ch-08.ipynb 文件 





o 


import dataset 





db = dataset.connect('sqlite:///:memory:') 
table - db["books"] 
table.insert(dict(, author-'Ivan Idris')) 
table.insert(dict(, author-'Ivan Idris')) 
table.insert(dict(, author-'Ivan Idris')) 
for row in db['books']: 

print(row) 


print("Tables", db.tables) 


8.6 PyMongo 5 MongoDB 





MongoDB 是 一 个 面向 文档 的 NoSQL 数据 库 ， 其 名 称 取 自 humongous 一 词 ， 即 硕大 








无 比 之 意 , 其 中 , 文档 将 以 类 似 JSON 的 BSON 格式 i 











8.6 PyMongo 与 MongoDB 
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行 存储 。 我们 可 以 下 载 MongoDB, 


安装 过 程 非常 简单 ， 我 们 只 需 将 压缩 文件 解压 即 可 。 创 作 本 书 时 ， 这 个 程序 库 的 版 本 为 
3.4.0。 这 个 版 本 的 bin 目录 下 面 有 一 个 名 为 mongod 的 文件 ， 用 来 启动 服务 器 。MongoDB 








位 于 /data/db 目录 下 面 ， 该 目录 就 是 存储 数据 的 地 方 。 当 然 ， 可 以 通过 下 


他 目录 。 


$ mkdir /tmp/db 












































./mongod --dbpath /tmp/db 


这 个 进程 需要 一 直 运 行 ， 这 样 我 们 才能 查询 数据 库 


PyMongo 是 MongoDB 的 Python 驱动 程序 ， 这 个 程序 的 安装 方 














$ pip3 install pymongo 











与 MongoDB 的 测试 数据 库 建立 连接 ， 代 码 如 下 。 


from pymongo import MongoClient 


client = MongoClient() 
db = client.test database 








o 

















进入 存放 数据 库 二 进 制 可 执行 代码 的 目录 并 启动 数据 库 ， 命 令 如 下 。 





法 如 下 。 





| 命令 来 指定 其 


别 忘 了 ， 我 们 是 可 以 利用 pandas DataFrame 来 创建 JSON 的 。 下 面 创建 JSON 并 将 其 
存 于 MongoDB 中 ， 代 码 如 下 。 


data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 





rows = json.loads (df.T.to json()).values() 


db.sunspots.insert(rows) 


现在 ， 我 们 来 查询 刚才 创建 的 文档 。 








cursor = db['sunspots'].find({}) 


df = pd.DataFrame (list(cursor)) 


print (df) 


这 将 打印 输 





整个 pandas DataFrame。 下 列 代码 摘 


from pymongo import MongoClient 


import statsmodels.api as sm 


自 本 书 代码 包 











FI] ch-08.ipynb 文件 。 


T 
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import json 
import pandas as pd 


client = MongoClient() 
db = client.test database 





data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
rows = json.loads (df.T.to json()).values() 


db.sunspots.insert many (rows) 
cursor = db['sunspots'].find((í])) 
df = pd.DataFrame (list(cursor)) 


print (df) 


db.drop collection('sunspots') 


8.7 利用 Redis 存储 数据 








Redis 是 一 个 in-memory 型 的 键 - 值 数据 库 ， 由 C 语言 编写 而 成 。Redis 这 个 名 称 源 自 
REmote DIctionary Server， 即 远程 字典 服务 器 。 处 于 内 存 存储 模式 时 ，Redis 的 速度 快 得 
惊人 ， 而 且 读 写 操作 的 速度 几乎 一 样 快 。Redis 遵循 发 布 订 阅 模式 并 且 通 过 Lua 脚本 来 处 
里 存储 过 程 。 发 布 订阅 模式 通过 客户 端 可 订阅 的 信道 来 接收 消息 。 创 作 本 书 时 的 Redis 
最 新 版 本 为 3.2.6, 我 们 可 以 下 载 Redis。 完 成 安装 之 后 ,我 们 就 可 以 通过 以 下 命令 来 运行 
服务 器 了 。 





























E 





















































$ src/redis-server 














下 面 开 始 安装 一 个 Python 驱动 程序 ， 命 令 如 下 。 


$ pip3 install redis 





Redis 的 使 用 非常 简便 ， 只 要 把 它 当 作 一 个 庞大 的 字典 即 可 。 不 过 ，Redis 也 有 自身 的 
局 限 性 。 有 时 ， 它 的 易 用 性 仅仅 体现 在 将 复杂 的 对 象 存储 为 JISON 字符 串 或 其 他 格式 。 这 
是 我 们 联合 使 用 Pandas DataFrame 的 原因 。 下 面 ， 我 们 与 Redis 建立 连接 ， 代 码 如 下 。 



























































T 








r = redis.StrictRedis() 





通过 JSON 字符 串 创 建 一 个 键 - 值 对 ， 代 码 如 下 。 
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r.set('sunspots', data) 


通过 下 列 代码 检索 数据 。 


blob = r.get('sunspots') 





过 


下 面 的 代码 非常 简单 ， 它 们 摘自 本 书 代码 包 中 的 ch-08.ipynb 文件 。 





import redis 





import statsmodels.api as sm 
import pandas as pd 


r = redis.StrictRedis() 
data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 





data = df.T.to json() 
r.set('sunspots', data) 
blob = r.get('sunspots') 
print (pd.read json (blob)) 


8.8 利用 memcache 存储 数据 











与 Redis 类 似 , memcache 也 是 一 个 in-memory 型 的 键 - 值 数据 库 。 在 安装 运行 memcache 


服务 器 之 后 ， 就 可 以 通过 下 列 命令 来 安装 memcache 的 Python 客户 端 了 。 


$ pip3 install python3-memcache 





em 


下 面 的 代码 摘自 ch-08.ipynb 文件 , 它 将 创建 一 个 memcache 客户 端 , 然后 将 DataFrame 











存储 到 Memcache， 其 中 自动 过 期 值 为 600 秒 。 这 段 代码 与 前 面 介 绍 Redis 时 看 到 的 代码 非 
常 相似 。 























import memcache 
import statsmodels.api as sm 


pandas as pd 


client = memcache.Client([('127.0.0.1', 11211)]) 
data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
df.T.to json() 








data 





client.set('sunspots', data, time-600) 
print("Stored data to memcached, auto-expire after 600 seconds") 


blob client.get('sunspots') 
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print (pd.read json(blob)) 


8.9 Apache Cassandra 





Apache Cassandra 是 结合 了 键 - 值 和 传统 关系 型 数据 库 特 性 的 混合 型 数据 库 。 对 于 传统 
的 关系 型 数据 库 而 言 ， 数 据 表 中 的 列 是 固定 的 。 可是， 对 于 Cassandra 来 说 ， 同 一 个 数据 表 
中 的 各 行 可 以 具有 不 同 的 列 。 从 这 个 角度 看 ，Cassandra 是 一 种 面向 列 的 数据 库 ， 因 为 它 允 
许 各 行 灵活 使 用 不 同 的 模式 。 这 个 数据 库 中 的 各 列 , 都 是 按照 所 谓 的 列 族 (Column Family) 
进行 组 织 的 ， 这 里 的 列 族 相 当 于 关系 型 数据 库 中 的 数据 表 。Cassandra 数据 库 已 经 气 弃 了 各 
种 连接 和 子 查询 操作 。 读 者 可 以 自行 下 载 Cassandra。 在 本 书写 作 时 ， 这 个 数据 库 的 最 新 版 
本 是 3.9。 


(OD 从 命令 行 运行 服务 器 ， 命 令 如 下 。 































































































$ bin/cassandra-f 

















(2) 可 以 创建 conf/cassandra.yaml 中 列 出 的 目录 ， 或 者 进行 如 下 的 调整 。 








data file directories: 

/ tmp/lib/cassandra/data 

commitlog directory: /tmp/lib/cassandra/commitlog 
saved caches directory: /tmp/lib/cassandra/saved caches 








(3) 如 果 不 想 保 存 某 些 数据 ， 可 以 考虑 下 列 命令 。 
$ mkdir -p /tmp/lib/cassandra/data 


$ mkdir -p /tmp/lib/cassandra/commitlog 
$ mkdir -p /tmp/lib/cassandra/saved caches 


(4) 下 面 安装 Python 驱动 程序 ， 命 令 如 下 。 


$ pip3 install cassandra-driver 


























(5) 下 面 开 始 编写 代码 。 首 先 ， 与 集群 建立 连接 并 创建 一 个 会 话 ， 代 码 如 下 。 























cluster = Cluster() 








Session = cluster.connect() 











(6) 在 Cassandra 中 ， 有 一 个 所 谓 的 keyspace 的 概念 ， 它 实际 上 就 是 用 来 存放 数据 表 
的 一 个 容器 。Cassandra 建立 了 自己 的 查询 语言 , 名 为 Cassandra 查询 语言 (Cassandra Query 









































Language, CQL)» CQL 的 用 法 
会 话 ， 代 码 如 下 。 
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与 SQL 类 似 。 下 面 创建 keyspace 并 设置 使 用 该 keyspace 的 


























Session.execute ("CREATE 


REPLICATION = { 'class 
'replication factor' 





KEYSPACE IF NOT EXISTS mykeyspace WITH 


' : 'SimpleStrategy', 


1 };") 


session.set keyspace('mykeyspace') 








CI) 现在 ， 创 建 一 个 数据 表 来 存放 太阳 黑子 数据 ， 代 码 如 下 。 


























Session.execute ("CREATE 


TABLE IF NOT EXISTS sunspots (year 


decimal PRIMARY KEY, sunactivity decimal);") 





(8) 创建 一 条 语句 ， 该 语句 将 在 循环 语句 中 把 元 组 作为 数据 行 来 插入 ， 代 码 如 下 。 








query = SimpleStatement( 
"INSERT INTO sunspots (year, sunactivity) VALUES ($s, $s)", 
consistency level-ConsistencyLevel.QUORUM) 








| 





(9) 下 列 代码 用 于 插入 数 





for row in rows: 





o 





session.execute (qu 


(10) 取得 数据 表 中 数据 的 








ry, row) 


行 数 。 





rows-session.execute("SELECT COUNT(*) FROM sunspots") 


for row in rows: 
print (row) 


输出 的 行 数 如 下 。 





[Row(count=309) ] 











C112 删除 keyspace， 关 闭 集群 。 














session.execute('DROP KEYSPACE mykeyspace!') 


cluster.shutdown() 








下 列 代码 摘自 本 书 代码 包 中 的 ch-08.ipynb 文件 。 


from cassandra import ConsistencyLevel 


from cassandra.cluster 


import Cluster 
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from cassandra.query import SimpleStatement 
import statsmodels.api as sm 


cluster - Cluster() 


























Session = cluster.connect() 
session.execute ("CREATE KEYSPACE IF NOT EXISTS mykeyspace WITH REPLICATION 
= { 'class' : 'SimpleStrategy', 'replication factor' : 1 };") 





Session.set keyspace('mykeyspace') 
session.execute("CREATE TABLE IF NOT EXISTS sunspots (year decimal PRIMARY 
KEY, sunactivity decimal);") 





























query = SimpleStatement( 
"INSERT INTO sunspots (year, sunactivity) VALUES ($s, $s)", 
consistency level-ConsistencyLevel.QUORUM) 











data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 

rows — [tuple(x) for x in df.values] 

for row in rows: 





Session.execute(query, row) 





rows-session.execute("SELECT COUNT(*) FROM sunspots") 


for row in rows: 














print (row) 











session.execute('DROP KEYSPACE mykeyspace') 








cluster.shutdown() 


8.10 ”小 结 











我 们 可 以 把 年 度 太阳 黑子 周期 数据 存储 在 不 同 的 数据 库 中 ， 包 括 关 系 型 数据 库 和 
NoSQL 数据 库 。 

这 里 所 谓 的 关系 ， 不 仅 限 于 数据 表 之 间 的 关系 ， 首 先 ， 它 与 一 个 数据 表 内 部 各 列 之 间 
的 关系 有 关 ; 其 次 ， 它 还 涉及 数据 表 之 间 的 关系 。 

实际 上 ， 我 们 可 以 通过 Python 的 标准 模块 sqlite3 来 跟 SQLite 数据 库 打 交道 。 我 们 可 
以 通过 pandas 与 SQLite 数据 库 或 SQLAlchemy 数据 库 来 建立 连接 。 

SQLAlchemy 以 其 基于 设计 模式 的 ORM 而 闻名 天 下 ， 通 过 这 个 库 ， 可 以 把 Python 的 
类 映射 为 数据 库 的 数据 表 。 实 际 上 ，ORM 模式 是 一 种 通用 的 架构 模式 ， 因 此 同样 适用 于 其 
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他 各 种 面向 对 象 程序 设计 语言 。SQLAlchemy 将 使 用 数据 库 的 各 种 技术 细节 剥离 出 去 ， 有 
了 它 ， 我 们 甚至 连 SQL 都 不 用 写 了 。 


MongoDB 是 一 个 面向 文档 的 数据 仓库 ， 可 以 存放 巨 量 的 数据 。 


进入 in-memory 模式 后 , Redis 不 仅 运 行 速 度 极 快 , 而 且 写 操作 也 几乎 与 读 操 作 一 样 快 。 
Redis 是 一 个 键 - 值 型 数据 仓库 ， 功 能 上 与 Python 的 字典 相仿 。 


Apache Cassandra 不 仅 具 有 键 - 值 数 据 库 的 特性 , 同时 还 具备 传统 的 关系 型 数据 库 特 性 。 
这 是 一 种 面向 列 的 数据 库 ， 它 的 各 个 列 都 以 列 族 的 形式 组 织 在 一 起 ， 这 里 的 列 族 相当 于 关 
系 型 数据 库 中 的 数据 表 。 在 Apache Cassandra 数据 库 中 ， 数 据 行 已 经 摆脱 了 特定 列 组 合 的 
qa. 
第 9 章 将 介绍 纯 文本 数据 的 分 析 技 术 ， 因 为 纯 文本 数据 在 各 个 组 织 和 互联 网 上 随处 可 
见 。 一 般 来 说 ， 纯 文本 数据 的 非 结构 化 程度 都 很 高 ， 与 处 理 已 经 清洗 并 制 表 的 数据 相 比 ， 
分 析 纯 文本 数据 需要 使 用 一 些 截然 不 同 的 方法 。 为 了 分 析 这 类 数据 ， 我 们 需要 借助 男 一 个 
开源 Python 程序 包 , B NLTK。NLTK 发 展 得 已 经 非常 完备 ,而且 自 身 备 有 相应 的 数据 集 。 





























































































































































































































































































































在 前 儿童 
际 上 ， 跟 结构 化 数 








Ph， 我 们 着 重 讨 


[) 9[] 


UBI Lu uut 











布 分 析 、 模 式 识别 、 标 注 、 链 接 和 关联 分 析 


和 可 视 化 等 。 这 里 将 借 





























NLTKO 来 分 析 文 本 。 








论 了 结构 化 数据 的 分 析 ， 主 要 涉及 列表 格式 的 数据 。 实 
一 样 ， 纯 文本 也 是 最 常见 的 格式 之 一 。 文本 分 析 需 要 用 到 词 频 分 








(link and association analysis)、 情 感 分 析 


























助 Python 自然 语言 工 


L€ (The Python Natural Language Toolkit, 











NLTK 自身 带 有 一 个 文本 样本 集 ， 这 个 样本 集 名 为 corpora。 同 














时 ，scikitlearn 程序 库 也 提供 了 许多 文本 分 书 


介绍 。 
































fF 工具 ， 本 章 也 会 对 这 些 工具 进行 简要 的 


此 外 ， 在 本 章 中 还 会 举例 说 明 网 络 分 析 。 本 章 涉及 的 主题 如 下 。 
安装 NLTK 


NLIK 简介 
滤 除 停 用 字 、 姓 名 和 数字 


Sp 











词 频 分 析 


T 














i 





[s 


创 


4 感 分 析 
建 词 云 
F: 交 网 络 分 析 











素 贝 叶 斯 分 类 





9.1 安装 NLTK 


92 NLTK 简介 


安装 本 章 所 用 到 的 各 种 库 的 命令 如 下 。 





$ pip3 install nltk scikit-learn 


9.2 NLTK 简介 





NLTK 是 一 个 用 来 分 析 自 然 语 言 文本 《〈 如 英文 句子 ) 的 Python 应 月 





起 源 于 2001 年 ， 最 初 设计 是 月 





来 进行 教学 的 。 
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程序 接口 。NLTK 


虽然 我 们 在 9.1 节 安 装 了 NLIK， 但 还 不 够 : 还 需要 下 载 NLTK 语料库 。 需 要 注意 的 


是 ， 这 里 的 下 载 量 相对 较 大 〈 约 1.8 GB), 但 是 只 需要 下 载 一 次 。 除 非 我 们 确切 地 知道 




















自己 








需要 哪 种 语料库 ， 和 否则 最 好 下 载 所 有 可 用 的 语料库 。 从 Python shell 下 载 语料库 的 命令 如 下 。 


$ Python3 
>>> import nltk 
>>> nltk.download() 





这 时 ,会 出 现 一 个 GUI 应 用 程序 ， 你 可 以 指定 要 下 载 的 文件 以 及 放 到 何 处 ， 如 图 9-1 所 示 。 








m Eum m 


Identifier | 


All packages 
All the corpora 
| Everything used in the NLTK Book 


all-corpora 
book 


All Packages 
Status 


out of date 
out of date 
| installed 








Download 


Refresh 


Server Index: https: //raw .githubusercontent. com/nltk/nltk data/gh-pages /index .xml 


Download Directory: /Users/armando/nltk data 








Z] 


9-1 
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如 果 是 NLTK 新 手 ， 最 方便 的 方法 就 是 选择 默认 选项 并 下 载 所 有 内 容 。 在 本 章 中 ， 我 
们 将 需要 用 到 停 用 词 、 电 影评 论 、 名 字 和 古 腾 堡 语 料 库 。 所 以 ， 我 们 鼓励 读者 根据 ch-09.ipynb 








文件 中 的 代码 来 学 习 下 列 部 分 。 

















9.3 滤 除 停 用 字 、 姓 名 和 数字 














进行 文本 分 析 时 ， 我 们 经 常 需 


























要 对 停 用 字 〈Stopwords ) 进行 剔除 。 这 里 所 谓 的 停 用 字 ， 



































就 是 那些 经 常见 、 但 是 没有 多 大 信 























乱 含量 的 词 。NLTK 为 很 多 语种 都 提供 了 停 用 字 语 料 库 。 

















下 面 加 载 英语 停 用 字 语 料 并 输出 部 分 单词 。 





Sw = set(nltk.corpus.stop 
print("Stop words:", list 


下 面 是 输出 的 部 分 常用 字 。 


Stop words: ['between', ' 





words.words('english')) 
(sw) [:7]) 


who', 'such', 'ourselves', 'an', 'ain', 'ours'] 

















请 注意 ， 这 个 语料库 中 的 所 有 


























单词 都 是 小 写 的 。 








此 外 ,NLTK 还 提供 了 一 个 Gutenberg 语料库 。Gutenberg 项 目 是 一 个 数字 图 书馆 计划 ， 




















供 人 们 在 互联 网 上 阅读 图 书 。 








下 面 加 载 Gutenberg 语料库 并 输出 部 分 文件 的 名 称 。 


gb = nltk.corpus.gutenberg 
print ("Gutenberg files:\n", gb.fileids()[-5:]) 











下 面 是 输出 的 某 些 书籍 的 名 称 ， 其 中 有 些 你 可 能 比较 熟悉 。 








Gutenberg files: ['milton-paradise.txt', 'shakespeare-caesar.txt', 


'shakespeare-hamlet.txt', 


'shakespeare-macbeth.txt', 'whitman-leaves.txt'] 

















现在 ， 从 milton-paradise.txt 文件 中 提取 前 两 句 内 容 ， 供 下 面 过 滤 使 用 。 下 面 给 出 具体 


代码 。 


text sent = gb.sents("mil 
































ton-paradise.txt")[:2] 





print("Unfiltered:", text sent) 


下 面 是 输出 的 句子 。 
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Unfiltered [['[', 'Paradise', 'Lost', 'by', 'John', 'Milton', 


Ub6eor', "p*5p, p5BOOkt, DU] 


现在 ， 过 滤 掉 下 面 的 停 用 字 。 


for sent in text sent: 
filtered = [w for w in sent if w.lower() not in sw] 
print("Filtered: Mn", filtered) 





对 于 第 一 句 ， 过 滤 后 变 成 以 下 格式 。 


Filtered ['[', 'Paradise', 'Lost', 'John', 'Milton', '1667', ']'] 

















注意 , 与 之 前 相 比 ， 
































单词 by 已 经 被 过 滤 掉 了 ,因为 它 出 现在 停 用 字 语料库 中 了 。 有 时 ， 








我 们 希望 将 文本 中 的 数字 和 姓名 也 删 掉 。 我 们 可 以 根据 词性 Part of Speech, POS) 标签 
来 删除 某 些 单词 。 在 这 个 标注 方案 中 ， 数 字 对 应 着 基数 (Cardinal Number, CD) 标签 。 


姓名 对 应 着 单数 形式 的 专 有 名 词 (the proper noun singular, NNP) 标签 。 标 注 是 基于 












































启发 式 方法 进行 处 理 的 ， 当 然 ， 这 不 可 能 非常 精确 。 这 个 主题 过 于 宏大 
































， 您 怕 需 要 整 本 书 


来 进行 描述 ， 详 见 前 言 部 分 。 在 过 滤 文本 时 ， 我 们 可 以 使 用 pos_tag0 函 数 获 取 文 本 内 所 含 























的 标签 ， 具 体 如 下 。 


tagged = nltk.pos_tag (filtered) 
print("Tagged: Mn", tagged) 


对 于 我 们 的 文本 ， 将 得 到 如 下 各 种 标签 。 





Tagged [('[', 'NN'), ('Paradise', 'NNP'), ('Lost', 'NNP'), 
(*Milton', UNNP Je ("16674 "GD*'yr- ty, DOD] 











('John', 'NNP'), 











上 面 的 pos tag0 函 数 将 返回 一 个 元 组 列表 ， 其 中 各 元 组 的 第 二 个 元 素 就 是 文本 对 应 的 











标签 。 可 见 ， 一 些 单词 虽然 被 标注 为 NNP， 但 是 它们 并 不 是 。 这 里 所 谓 














的 启发 式 方法 ， 就 














是 如 果 单 词 的 第 一 个 字母 是 大 写 的 ， 那 么 就 将 其 标注 为 NNP。 如 果 将 上 面 的 文本 全 部 转换 





























为 小 写 ， 那 么 就 会 得 到 不 同 的 结果 ， 这 个 留 给 读者 自行 练习 。 实 际 上 ， 我 们 很 容易 就 能 利 




















] NNP 和 CD 标签 来 删除 列表 中 的 单词 ， 代 人 码 如 下 。 





words- [] 
for word in tagged: 
if word[1] != 'NNP' and word[1] != 'CD': 
words.append (word[0]) 
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print (words) 


下 列 代码 摘自 本 书 代 码 包 中 的 ch-09.ipynb 文件 。 





import nltk 


Sw — set(nltk.corpus.stopwords.words('english')) 
print("Stop words:", list(sw)[:7]) 


gb = nltk.corpus.gutenberg 
print ("Gutenberg files:WMn", gb.fileids()[-5:]) 





text sent = gb.sents("milton-paradise.txt")[:2] 
print("Unfiltered:", text sent) 








for sent in text sent: 
filtered = [w for w in sent if w.lower() not in sw] 
print("Filtered: Mn", filtered) 
tagged = nltk.pos_tag (filtered) 
print("Tagged: Mn", tagged) 


words- [] 
for word in tagged: 
if word[1] != 'NNP' and word[1] != 'CD': 
words.append (word[0]) 


print ("Words:\n", words) 


9.4 词 袋 模型 














所 谓词 袋 模型 ， 即 它 认 为 一 篇 文档 是 由 其 中 的 词 构成 的 一 个 集合 〈 即 袋子 )， 词 与 词 之 
间 没 有 顺序 以 及 先后 的 关系 。 对 于 文档 中 的 每 个 单词 ， 我 们 都 要 计算 它 出 现 的 次 数 ， 即 单 
词 计 数 〈word counts)。 据 此 ， 我 们 可 以 进行 类 似 垃圾 邮件 识别 之 类 的 统计 分 析 。 

如 果 有 一 批文 档 ， 那 么 每 个 唯一 字 Cunique word) 都 可 以 视 为 语料库 中 的 一 个 特征 
这 里 所 谓 的 “特征 ” 可 以 理解 为 参数 或 者 变量 。 利 用 所 有 的 单词 计数 ， 我 们 可 以 为 每 个 
文档 建立 一 个 特征 向 量 这 里 的 “向 量 ” 一 词 借用 的 是 其 数学 含义 。 如 果 一 个 单词 存在 于 
语料库 中 ， 但 是 不 存在 于 文档 中 ， 那 么 这 个 特征 的 值 就 为 0。 令 人 惊讶 的 是 ，NLTK 至 今 
尚未 提供 可 以 方便 创建 特征 向 量 的 实用 程序 。 不 过 ， 我 们 可 以 借用 Python 机 器 学 习 库 
scikit-learn 中 的 CountVectorizer 类 来 轻松 创建 特征 向 量 。 第 10 章 将 对 scikit-learn 进行 更 
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下 面 从 NLTK 的 Gutenberg 语料库 加 载 两 个 文本 文档 ， 代 码 如 下 。 


hamlet = gb.raw("shakespeare-hamlet.txt") 
macbeth = gb.raw("shakespeare-macbeth.txt") 





现在 我 们 去 掉 英 语 停 用 词 并 创建 特征 向 量 ， 代 码 如 下 。 








cv = SK.feature_extraction.text.CountVectorizer (stop words-'english') 
print ("Feature vector:Mn", cv.fit transform([hamlet, macbeth]).toarray()) 


下 面 是 两 个 文档 对 应 的 特征 向 量 。 





Feature vector: 
ER E00 T. 22:55 14 071] 
[ O.1 Q ..., X 1 01] 





下 面 ， 我 们 输出 部 分 特征 (唯一 字 ) fü. 





print ("Features:\n", cv.get feature names()[:5]) 











这 些 特征 是 按 字 母 顺序 排序 的 。 


Features: 
['1599', '1603', 'abhominably', 'abhorred', 'abide'] 


下 列 代 码 摘自 本 书 代 码 包 中 的 ch-09.ipynb 文件 。 





import nltk 
import sklearn as sk 


hamlet = gb.raw("shakespeare-hamlet.txt") 
macbeth = gb.raw("shakespeare-macbeth.txt") 


cv = Sk.featur xtraction.text.CountVectorizer(stop words-'english') 





print ("Feature vector:Mn", cv.fit transform([hamlet, macbeth]).toarray()) 
print("Features:Mn", cv.get feature names()[:5]) 


9.5 词 频 分 析 


























NLTK 提供 的 FreqDist 类 可 以 用 来 将 单词 封装 成 字典 并 计算 给 定单 词 列 表 中 各 个 单词 
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EEG 








现 的 次 数 。 下 面 ， 我 们 来 加 载 Gutenberg Ji H FP 
首先 ， 把 停 用 词 和 标点 DRH, RBU TF. 


Zr 


符号 


H 
J 





punctuation 
filtered = 
not in punctuation] 


set (string.punctuation) 
[w.lower() 














然后 ， 创 建 一 个 FreqDist 对 象 并 输出 频率 最 高 的 键 条 


fd 
prin 


nltk.FreqDist(filtered) 
("Words", fd.keys()[:5]) 
("Counts", fd.values()[:5]) 


prin 








的 键 和 值 如 下 。 


fi E 


Words ["d", 
ts [215; 


'brutus', 'bru', 'haue 


153, 148] 


'caesar', 
190, 161, 





Coun 


for w in words if w.lower() 


的 Julius Caesar 中 的 文本 。 


not in sw and w.lower() 


0 值 ， 代 码 如 下 。 


"ul 





^ 


很 明 x 4 i 3 





FH 
ME 5 











中 的 第 一 个 字 并 非 英 i 


Emu, 

















因此 需要 添加 一 种 启发 式 搜 索 











(Heuristic) JE, RAR 


















































竺 最少 含 有 两 个 字符 的 单词 。 对 了 


F NLTK 提供 的 FreqDist 类 ， 我 们 











既 可 以 使 用 类 似 于 字典 的 访问 方法 ， 也 可 以 使 
常 出 现 的 单词 以 及 对 应 的 出 现 次 数 。 





print("Max", fd.max()) 


t("Count", fd['d']) 





prin 


j 更 便利 的 3 


其 他 方法 。 下 面 ， 我 们 要 提取 最 




































































对 应 下 面 的 结果 ， 你 肯定 不 会 感到 吃惊 。 

Max d 

Count 215 

目前 ， 我 们 只 是 针对 单个 单词 构成 的 词 
展 到 含有 两 个 单词 和 3 个 单词 的 词汇 上 ， 对 于 后 面 这 两 也 
词 。 对 于 这 两 种 分 析 ， 分 别 有 对 应 的 函数 ， 即 bigrams0 函 
































再 次 进行 文本 分 析 ， 不 过 ， 这 次 针对 的 是 双 字 词 。 





fd nltk.FreqDist(nltk.bigrams (filtered)) 
print("Bigrams", fd.keys()[:5]) 
fd.values()[:5]) 
fd.max()) 
fd[('let', 


print("Counts", 


( 
( 
print("Bigram Max", 
print("Bigram count", 'vs!)]) 


[进行 了 分 析 ， 不 过 可 以 # 

















而 广 之 ， 将 分 析 扩 
中 ， 我 们 分 别称 之 为 双 字 词 和 三 字 
数 和 trigrams OKZ. MÆ, Ri 
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结果 如 下 。 
Bigrams [('let', 'vs'), ('wee', '1'), ('mark', 'antony'), ('marke', 
'antony'), ('st', 'thou!')] 
Counts [16;, 15, 13, 12, I2] 
Bigram Max ('let', 'vs') 
Bigram count 16 
下 列 代码 摘自 本 书 代码 包 中 的 ch-09.ipynb 文件 。 
import nltk 
import string 
gb = nltk.corpus.gutenberg 
words = gb.words ("shakespeare-caesar.txt") 
Sw = set(nltk.corpus.stopwords.words('english')) 
punctuation = set(string.punctuation) 
filtered = [w.lower() for w in words if w.lower() not in sw and w.lower() 


not in punctuation] 
fd = nltk.FreqDist(filtered) 





print("Words", fd.keys()[:5]) 
print("Counts", fd.values()[:5]1]) 
print("Max", fd.max()) 
print("Count", fd['d']) 





fd = nltk.FreqDist(nltk.bigrams (filtered) 








print("Bigrams", fd.keys()[:5]) 
print("Counts", fd.values()[:5]1]) 
print("Bigram Max", fd.max()) 
print("Bigram count", fd[('let', 'vs')]) 


9.6 朴素 贝 叶 斯 分 类 


比 妇 














) 














分 类 算法 是 机 器 学 习 算法 中 的 一 种 , 用 来 判断 给 定数 据 项 所 属 的 类 别 ， 即 种 类 或 类 型 。 






































0， 我 们 可 以 根据 某 些 特征 来 分 辨 一 部 电影 属于 哪个 流派 等 。 这 样 ， 流 派 就 是 我 们 要 预 





测 的 类 别 。 第 10 章 还 会 对 机 器 学 习 做 进一步 介绍 。 此 刻 , 我 们 要 讨论 的 是 一 个 名 为 朴素 贝 


md 


了 利用 新 证 据 修正 茶 事 件 发 生 的 概率 的 方法 。 例 如 , 假设 














1 分 类 的 流行 算法 ， 它 常常 用 于 进行 文本 文档 的 分 析 。 























统计 中 的 贝 叶 斯 定理 。 贝 叶 斯 定理 给 出 





朴素 贝 叶 斯 分 类 是 一 个 概率 算法 ， 它 基于 概率 与 数理 









































rs 
METERA 














些 巧 克 力 和 其 他 物品 ， 





X 
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但 是 这 些 我 们 没 法 看 到 。 这 时 , 我 们 可 以 用 P(D) 表 示 从 袋子 中 掏 出 一 块 深 色 巧 克 力 的 概率 。 同时， 
我 们 用 P(C) 代 表 掏 出 一 块 巧克力 的 概率 。 当 然 ， 因 为 全 概率 是 1， 所 以 POD) 和 P(C) 的 最 大 取 值 也 
只 能 是 1。 贝 叶 斯 定理 指出 ， 后 验 概率 与 先 验 概率 和 相似 度 的 乘积 成 正比 ， 具 体 公 式 如 下 。 
















































































PCODIO) 
在 上 面 的 公式 中 ，PODIO) 是 在 事件 C 发 生 的 情况 下 事件 D 发 生 的 可 能 性 。 在 我 们 还 没 











有 掏 出 任何 物品 之 前 ，P(D) = 0.5， 因 为 我 们 尚未 获得 任何 信息 。 实 际 应 用 这 个 公式 时 ， 我 











们 必须 知道 PCCID) 和 P(C)， 或 者 能 够 间接 求 出 这 两 个 概率 。 





征 ， 























朴素 贝 叶 斯 分 类 之 所 以 称 为 朴素 , 是 因为 它 简单 假设 特征 之 间 是 相互 独立 的 。 实 践 中 ， 

















朴素 贝 叶 斯 分 类 的 效果 通常 都 会 很 好 ， 说 明 这 个 假设 得 到 了 一 定 程 度 的 保证 。 近 来 ， 人 们 
发 现 这 个 假设 之 所 以 有 意义 ， 理 论 上 是 有 依据 的 。 不 过 ， 由 于 机 器 学 习 领 域 发 展 迅 猛 ， 现 
在 已 经 发 明了 多 种 效果 更 佳 的 算法 。 

























































































下 面 ， 我 们 将 利用 停 用 词 或 标点 符号 对 单词 进行 分 类 。 这 里 ， 我 们 将 字 长 作为 一 个 特 
因为 停 用 词 和 标点 符号 往往 都 比较 短 。 
为 此 ， 我 们 需要 定义 如 下 所 示 的 函数 。 




















def word features (word): 
return ('len': len (word)} 


def isStopword (word): 
return word in sw or word in punctuation 

















X 


下 面 ,我们 对 取 自 古 登 堡 项 目的 shakespeare-caesar.txt 中 的 单词 进行 标注 ， 以 区 分 是 否 











为 停 用 词 ， 代 码 如 下 。 





labeled words = ([(word.lower(), isStopword(word.lower())) for word in 
words]) 

random.seed(42) 

random.shuffle(labeled words) 

print (labeled words[:5]) 





下 面 显示 了 5 个 标注 后 的 单词 。 








('was', True), ('greeke', False), ('cause', False), ('but', True), 
('house', False)] 





对 于 每 个 单词 ， 我 们 可 以 求 出 其 长 度 。 





featuresets = [(word _ features (n), word) for (n, word) in labeled words] 

















9.6 朴素 贝 叶 斯 分 类 
前 几 章 我 们 介绍 过 拟 合 以 及 通过 训练 数据 集 和 测试 数据 集 的 交叉 验证 来 避免 这 种 情 








的 方法 。 下 面 我 们 将 要 训练 一 个 朴素 贝 叶 斯 分 类 器 , 其 中 90% 的 单词 月 
用 于 测试 。 首 先 ， 创 建 训练 数据 集 和 测试 数据 集 并 针对 数据 展开 训练 ， 代 码 如 下 。 














cutoff = int(.9 * len(featuresets)) 


train set, test set - featuresets[:cutoff], 








185 

















况 





于 训练 , 剩 下 的 1096 





featuresets[cutoff:] 


classifier = nltk.NaiveBayesClassifier.train(train set) 








现在 ， 我 们 拿 出 














单词 ， 检 查 该 分 类 器 的 效果 。 


classifier = nltk.NaiveBayesClassifier.train(train set) 





print("'behold' 


print("'the' class", 


幸运 的 是 ， 这 些 单词 的 分 类 完全 正确 : 


class", 














'behold' class False 
'the' class True 


然后 ， 根 据 测试 数据 集 来 计 





print("Accuracy", nltk.classify.accuracy(classifier, 








这 个 分 类 器 的 准确 








度 非常 高 ， 几 乎 达到 85%。 下 面 来 





























分 类 器 的 准确 | 





性 ， 代 码 如 下 。 

















看 哪些 特征 





print(classifier.show most informative features(5) ) 








结果 显示 如 图 9-2 所 示 ， 在 分 类 过 程 中 字 长 的 作用 最 大 。 


























下 列 代 码 摘自 本 书 代 码 包 中 的 ch-09.ipynb 文件 。 





import nltk 
import string 
import random 


Sw — set(nltk.corpus.stopwords.words('english')) 


punctuation = set(string.punctuation) 


len = 7 False : True = 62.7 : 1.0 

len = 6 False : True = 49.1 : 1.0 

len = 1 True : False = 12.0 : 1.0 

len = 2 True : False = 10.7 : 1.0 

len = 5 False : True = 10.4 : 1.0 
图 9-2 


classifier.classify(word features('the!'))) 


test set)) 


classifier.classify (word features ('behold'!))) 
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def word features (word): 
return ('len': len(word)] 


def isStopword (word): 
return word in sw or word in punctuation 
gb = nltk.corpus.gutenberg 


words = gb.words("shakespeare-caesar.txt") 

labeled words = ([(word.lower(), isStopword(word.lower())) for word in 
words]) 

random.seed(42) 

random.shuffle(labeled words) 

print (labeled words[:5]) 

featuresets = [(word features (n), word) for (n, word) in labeled words] 
cutoff = int(.9 * len(featuresets)) 

train set, test set = featuresets[:cutoff], featuresets[cutoff:] 





classifier = nltk.NaiveBayesClassifier.train(train set) 


print("'behold' class", classifier.classify (word features ('behold'))) 


print("'the' class", classifier.classify(word features('the'))) 


print("Accuracy", nltk.classify.accuracy(classifier, test set)) 
print(classifier.show most informative features(5)) 


9.7 情感 分 析 


























随 着 社交 媒体 、 产 品评 论 网 站 及 论坛 的 兴起 ， 用 来 自动 抽取 意见 的 观点 挖掘 或 情感 

















K l 






































分 析 也 随 之 变 成 一 个 炙手可热 的 新 研究 领域 。 通 常情 况 下 ， 我 们 希望 知道 茶 个 意见 的 性 
质 是 正面 的 、 中 立 的 还 是 负面 的 。 当 然 ， 这 种 类 型 的 分 类 我 们 前 面 就 兽 遇 到 过 。 也 就 是 


















































说 ， 我 们 有 大 量 的 分 类 算法 可 用 。 还 有 一 个 方法 就 是 ， 通 过 半自动 的 (经 过 某 些 人 工 纺 
辑 ) 方法 来 编制 一 个 单词 列表 ， 每 个 单词 赋予 一 个 情感 分 ， 即 一 个 数值 (如 单词 “good” 
的 情感 分 为 5， 而 单词 “bad” 的 情感 分 为 -5)。 如 果 有 了 这 样 一 张 表 ， 就 可 以 给 文本 文档 

























































































中 的 所 有 单词 打分 ， 从 而 得 出 一 个 情感 总 分 。 当 然 ， 类别 的 数量 可 以 大 于 3， 如 五 星 级 评 

















级 方案 。 
我 们 会 应 用 朴素 贝 叶 斯 分 类 方法 对 NLTK 的 影评 语料库 进行 分 析 ， 从 而 将 影 认 






























































正面 的 或 负面 的 评价 。 首 先 ， 加 载 影评 语料库 并 过 滤 掉 停 用 词 和 标点 符号 。 这 些 步骤 在 


此 略 过 ， 因 为 之 前 就 介绍 过 了 。 也 可 以 考虑 更 精细 的 过 滤 方 案 ， 不 过 ， 需 要 注意 的 是 ， 


如 果 过 滤 得 过 火 了 ， 就 会 影响 准确 性 。 
代码 如 下 。 
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labeled docs = [(list(movie reviews.words(fid)), cat) 


完整 的 i 在 料 库 拥 有 数 以 万 计 的 唯一 
极 大 地 影响 效率 。 这 里 ， 


for cat in movie reviews.categories () 








for fid in movie reviews.fileids(cat)] 

















words = FreqDist (filtered) 
int(.05 * len(words.keys())) 
word features = words.keys()[:N] 


N= 


对 于 每 个 文档 ， 可 以 通过 一 
e 检查 给 定 文档 是 否 
。 求 出 某 个 单词 在 给 




















e F 
俗话 说 “ 


em 
Cm 


上面 的 数值 组 成 一 个 度 




















为 如 下 。 


def 


现在 ， 可 以 训 





个 成 绩 已 经 相当 不 错 了 ， 非 常 接近 情感 分 析 成 绩 的 上 限 。 因 为 据 丰 





更 快 地 到 





doc features (doc): 


“条 条 大 路 通 罗 马 ” 不过， 这 
达 罗 马 。 下 面 定义 一 个 函数 ， 该 函 


字 


量 指标 。 

















而 通过 categories() 方 法 对 影评 文档 进行 标注 ， 














这 些 唯 一 字 都 可 以 用 作 特 征 ， 不 过 ， 这 样 做 会 











些 方法 来 提取 特征 ， 其 中 包括 以 下 方法 : 
含有 某 个 单词 ; 
全 定 文档 中 出 现 的 次 数 ; 
正则 化 单词 计数 ， 使 得 正则 化 后 的 最 大 
将 上 面 的 数值 加 1， 然 后 取 对 数 。 这 










































































我 们 选用 词 频 最 高 的 前 5% 的 单词 作为 特征 。 





T 


E 词 计数 小 于 或 等 于 1; 
里 之 所 以 加 1， 是 为 了 防止 对 0 取 对 数 ; 





其 中 肯定 不 乏 有 些 道路 能 够 让 我 们 更 安全 ， 也 能 


数 会 使 用 原始 单词 计数 来 作为 度量 指标 ， 代 码 











doc words = FreqDist(w for w in doc if not isStopWord (w)) 


features = {} 


for word in word features: 


o 


features['count ($s)' $ word] = (doc words.get(word, 0)) 


return features 











练 我 们 的 分 类 器 了 ， 有 具体 方法 与 前 面 的 例子 相似 。 














这 里 准确 性 达到 78%， 
































究 发 现 ， 即 便 是 人 类 ， 


en ep e s 
不 可 能 的 事情 。 


下 面 的 图 9-3 给 出 包含 信息 量 最 大 的 特征 。 








T 
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count (wonderful) = 2 pos : neg = 14.7 : 1.0 
count (outstanding) = 1 pos : neg = 11.2 : 1.0 
count (bad) = 5 neg : pos = 10.8 : 1.0 
count (stupid) = 2 neg : pos - 10.8 : 1.0 
count (boring) = 2 neg : pos zx 10.4 : 1.0 
count (nature) = 2 pos : neg - 8.5 : 1.0 
count (different) = 2 pos : neg = 8:3 : 1,0 
count (bad) = 6 neg : pos - 8.2 : 1.0 
count (apparently) = 2 neg : pos E 8.0 : 1.0 
count (life) = 5 pos : neg - 7.6 : 1.0 
9-3 
如 果 仔 细 检 查 这 个 列表 , RIR Ih BUE — 169€ xig], Qn "wonderful ( 妙 不 可 言 的 )” 








JI “outstanding (杰出 的 )” 而 单词 “bad CEEA)” “stupid CRRI)” M “boring (无 
趣 的 )” 则 明显 是 一 些 贬 义 词 。 如 果 有 兴趣 ， 读 者 也 可 以 分 析 其 他 的 那些 特征 ， 这 将 作为 一 
个 作业 留 给 读者 自己 完成 。 以 下 代码 摘自 本 书 代 码 包 中 的 sentiment.py 文件 。 






































import random 





from nltk.corpus import movie reviews 
from nltk.corpus import stopwords 
from nltk import FreqDist 

from nltk import NaiveBayesClassifier 
from nltk.classify import accuracy 
import string 


labeled docs = [(list(movie reviews.words(fid)), cat) 





for cat in movie reviews.categories() 
for fid in movie reviews.fileids(cat)] 





random.seed(42) 
random.shuffle(labeled docs) 


review words = movie reviews.words() 
print ("# Review Words", len(review words)) 


Sw — set(stopwords.words('english')) 
punctuation = set(string.punctuation) 


def isStopWord (word): 
return word in sw or word in punctuation 


filtered = [w.lower() for w in review words if not isStopWord(w.lower())] 
print("£ After filter", len(filtered)) 

words = FreqDist(filtered) 

N = int(.05 * len(words.keys())) 





9.8 创建 词 云 
word features = words.keys()[:N] 


def doc features (doc): 
doc words = FreqDist(w for w in doc if not isStopWord (w)) 
features = {} 
for word in word features: 


features['count ($s)' $ word] = (doc words.get(word, 0)) 
return features 


featuresets - [(doc features(d), c) for (d,c) in labeled docs] 
train set, test set - featuresets[200:], featuresets[:200] 
classifier = NaiveBayesClassifier.train(train set) 








print("Accuracy", accuracy(classifier, test set)) 


print(classifier.show most informative features()) 
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因 
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阅读 本 书 前 ， 我 们 也 许 已 在 Worde 或 其 他 地 方 见 过 词 云 了 ; 如 果 没 见 过 也 不 要 紧 ， 


















































为 可 以 在 本 章 看 个 够 了 。 虽 然 Python 有 两 个 程序 库 都 可 以 用 来 生成 词 云 ， 但 是 它们 生 


成 词 云 的 效果 尚 不 能 与 Wordle 网 站 的 效果 相 媲美 。 所 以 , 我 们 不 妨 利用 Wordle 网 站 的 页 
面 来 创建 词 云 。 利 用 Worde 生成 词 云 时 ， 需 要 提供 一 个 单词 列表 及 其 对 应 的 权 值 ， 
格式 如 下 。 

















Wordl : weight 
Word2 : weight 












































H% 


现在 ， 对 前 面 例子 中 的 代码 稍 作 修改 ， 让 它 输 出 这 个 字 表 。 这 里 ， 我 们 将 使 用 词 频 作 
































为 度量 指标 ， 选 取 词 频 排名 靠 前 的 单词 。 实 际 上 ， 这 里 不 需要 任何 新 的 代码 ， 具 体内 容 可 
以 参考 本 书 代码 包 中 的 ch-09.ipynb 文件 。 

















from nltk.corpus import movie reviews 
from nltk.corpus import stopwords 
from nltk import FreqDist 

import string 


Sw — set(stopwords.words('english')) 
punctuation = set(string.punctuation) 





def isStopWord (word): 
return word in sw or word in punctuation 
review words = movie reviews.words() 
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filtered = [w.lower() 


words = FreqDist (filtered) 
N = int(.01 * len(words.keys())) 
tags = words. keys () [:N] 


for tag in tags: 


print (tag; :', words [tag]) 








将 上 面 代码 的 输出 结果 复 人 
词 云 了 。 


D: 





c— 


§ 贴 到 上 


























EHE SI] Wordle 页 面 ， 就 能 得 到 如 


for w in review words if not isStopWord(w.lower())] 











9-4 所 示 的 
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图 9-4 





仔细 研究 这 个 词 云 ， 会 发 现 它 远 非 完美 ， 还 有 很 大 的 改进 空 



























































间 。 因 此 ， 我 们 不 妨 做 进 



























































一 步 的 尝试 。 
° 步 过 滤 : 我 们 应 当 剔 除 包含 数字 符号 和 姓名 的 那些 单词 。 这 时 , 可 以 借助 NLTK 
的 names 语料库 。 此 外 ， 对 于 在 所 有 语料库 中 仅 出 现 一 次 的 那些 单词 ， 我 们 也 可 
以 置之不理 ， 因 为 它们 不 大 可 能 提供 足够 有 价值 的 信息 。 
e 使 用 更 好 的 度量 指标 : BIDUO X RUE (The Term Frequency-Inverse Document 
Frequency, TF-IDF) 看 起 来 是 一 个 不 错 的 选择 。 
度量 指标 TF-IDF 可 以 通过 对 语料库 中 的 单词 进行 排名 并 据 此 赋予 这 些 单词 相应 的 权 
重 。 这 个 权重 的 值 与 单词 在 特定 文档 中 出 现 的 次 数 即 词 频 成 正比 。 同 时 ， 它 还 与 语料库 中 














含有 该 单词 的 文档 数量 成 反比 ， 即 逆 文 档 频率 。TF-IDF 的 值 




















为 词 频 和 逆 文 档 频 率 之 积 。 如 
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果 需 要 自己 动手 实现 TF-IDF， 那 么 还 必须 考虑 对 数 标定 处 理 。 幸 运 的 是 ， 实 际 上 我 们 根本 
无 需 考虑 这 些 实现 方面 的 细节 ， 因 为 scikit-leam 已 经 为 我 们 准备 好 了 一 个 TfidfVectorizer 
类 ， 它 有 效 地 实现 了 TF-IDF。 该 类 能 够 生成 一 个 稀 玻 的 SciPy 矩阵 ， 用 术语 来 说 就 是 一 个 
词 条 -文档 矩阵 ， 这 个 和 矩阵 存放 的 是 单词 和 文档 的 每 种 可 能 组 合 的 TF-IDF 值 。 因 此 ， 对 于 
一 个 含有 2000 个 文档 和 25 000 个 不 重复 的 词 的 语料库 , 可 以 得 到 一 个 2 000X25 000 IAE 
阵 。 由 于 大 部 分 矩阵 值 都 为 0， 我 们 将 它 作为 一 个 稀疏 矩阵 来 处 理 比 较 省 劲 。 对 每 个 单词 
来 说 ， 其 最 终 的 排名 权重 可 以 通过 对 其 TF-IDF 值 求 和 来 得 到 。 


下 面 我 们 通过 isalpha0 方 法 和 姓名 语料库 来 改善 过 滤 效 果 ， 代 码 如 下 。 
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all names = set([name.lower() for name in names.words()]) 





def isStopWord (word): 
return (word in sw or word in punctuation) or not word.isalpha() or 
word in all names 



































下 面 创建 一 个 NLTK 的 FreqDist 类 ， 从 而 过 滤 掉 那些 只 出 现 一 次 的 单词 。 对 于 TfidfVectorizer 
类 ， 需 要 为 其 提供 一 个 字符 串 列表 来 指出 语料库 中 的 各 个 文档 。 


下 面 创建 这 个 列表 ， 代 码 如 下 。 






































for fid in movie reviews.fileids(): 





texts.append(" ".join([w.lower() for w in movie reviews.words(fid) if 
not isStopWord(w.lower()) and words[w.lower()] > 1])) 








创建 向 量化 程序 ， 为 了 保险 起 见 ， 令 其 忽略 停 用 词 。 














vectorizer = TfidfVectorizer(stop words-'english') 


GU EE FILES TRE A -SCEDRRER o 








matrix - vectorizer.fit transform(texts) 


为 每 个 单词 的 TF-IDF 值 求 和 并 将 结果 存放 到 NumPy 数组 中 。 








sums = np.array(matrix.sum(axis-0)).ravel() 

















下 面 通过 单词 的 排名 权 值 来 创建 一 个 Pandas DataFrame 并 进行 相应 的 排序 ， 代 码 如 下 。 























ranks = [] 





for word, val in itertools.izip(vectorizer.get feature names(), sums): 
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ranks.append((word, val)) 


df pd.DataFrame (ranks, 
df df.sort(['tfidf']) 


print (df.head()) 





排名 最 低 的 值 将 被 输出 ， 同 时 供 将 来 过 滤 用 。 


term tfidf 

8742 greys 0.03035 
2793 cannibalize 0.03035 
2408 briefer 0.03035 
19977 superintendent 0.03035 
14022 ology 0.03035 


columns-["term", 


"EfidE"T) 


接 下 来 ， 我 们 输出 排名 靠 前 的 单词 ， 这 样 就 可 以 利用 Wordle 网 站 生成 如 图 9-5 所 示 的 





词 云 了 。 
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令 人 遗憾 的 是 , 我 们 必须 亲自 运行 代码 , 才能 看 到 上 面 词 云 中 的 不 同色 彩 











词 频 而 言 ，TF-IDF 度量 指标 更 富 于 变化 ， 因 
能 使 得 云雾 
from nltk.corpus import movie reviews 
from nltk.corpus import stopwords 
from nltk.corpus import names 
from nltk import FreqDist 


。 相 较 于 单调 的 
此 我 们 就 能 得 到 更 加 丰富 的 色彩 。 
中 的 单词 看 起 来 联系 更 加 紧密 。 下 列 代码 摘自 本 书 代码 包 中 的 ch-09.ipynb 文件 。 


此 外 ， 这 样 还 
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from sklearn.feature extraction.text import TfidfVectorizer 
import itertools 

import pandas as pd 

import numpy as np 

import string 





Sw — set(stopwords.words('english')) 
punctuation = set(string.punctuation) 
all names = set([name.lower() for name in names.words()]) 


def isStopWord (word): 
return (word in sw or word in punctuation) or not word.isalpha() or 
word in all names 


review words = movie reviews.words() 
filtered = [w.lower() for w in review words if not isStopWord(w.lower())] 


words = FreqDist (filtered) 


texts = [] 


for fid in movie_reviews.fileids(): 
texts.append(" ".join([w.lower() for w in movie_reviews.words (fid) if 
not isStopWord(w.lower()) and words[w.lower()] > 1])) 





vectorizer = TfidfVectorizer(stop words-'english') 
matrix - vectorizer.fit transform(texts) 
sums = np.array(matrix.sum(axis-0)).ravel() 


ranks = [] 





for word, val in itertools.izip(vectorizer.get feature names(), sums): 
ranks.append((word, val)) 


df = pd.DataFrame(ranks, columns-["term", "tfidf"]) 
df = df.sort(['tfidf']) 
print (df.head()) 


N = int(.01 * len (df)) 
df = df.tail(N) 


for term, tfidf in itertools.izip(df["term"].values, df["tfidf"].values): 
print(term, ":", tfidf) 


9.9 社交 网 络 分 析 

















所 谓 社交 网 络 分 析 ， 实 际 上 就 是 利用 网 络 理论 来 研究 社会 关系 ， 其 中 ， 网 络 中 的 节点 
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代表 的 是 网 络 中 的 参与 者 。 节 点 之 间 的 连 线 代 表 的 是 参与 者 之 间 的 相互 关系 。 


严格 来 讲 ， 这 应 该 称 为 一 个 图 。 本 书 仅 介绍 如 何 利用 流行 的 Python Æ NetworkX 来 分 
析 简 单 的 图 。 这 里 ， 通 过 Python 库 matplotlib 来 对 这 些 网 络 图 进行 可 视 化 。 


为 了 安装 NetworkX， 可 以 使 用 如 下 命令 。 























$ pip3 install networkx 


下 面 导 入 NetworkX 并 指定 一 个 简单 的 别名 。 

import networkx as nx 

NetworkX 提供 了 许多 示例 图 ， 下 面 将 其 列 出 ， 代 码 如 下 。 

print([s for s in dir(nx) if s.endswith('graph')]) 

下 面 导 入 Davis Southern women 图 并 绘制 出 各 个 节点 的 度 的 柱状 图 ， 代 码 如 下 。 
G = nx.davis southern women graph() 


plt.figure(1) 
plt.hist(nx.degree(G).values()) 


最 终 得 到 如 图 9-6 所 示 的 柱状 图 。 
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9-6 


下 面 来 绘制 带 有 节点 标签 的 网 络 图 ， 所 需 命令 如 下 。 





plt.figure(2) 
pos = nx.spring layout (G) 
nx.draw(G, node size-9) 
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nx.draw networkx labels(G, pos) 


plt.show() 


得 到 的 图 形 如 图 9-7 所 示 。 
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图 9-7 


虽然 这 个 例子 很 得 ， 但 是 对 于 简单 体验 NetworkX 的 功能 特性 来 说 已 经 足够 了 。 我 们 
可 以 借助 NetworkX 来 探索 、 可 观 化 和 分 析 社 交 媒 体 网 络 , 如 Twitter. Facebook 以 及 LinkedIn 


























等 。 当 然 ， 本 节 讲 述 的 方法 不 仅 适用 于 社交 网 络 ， 实 际 上 ， 所 有 类 似 的 网 络 图 都 可 以 使 用 


NetworkX 来 处 理 。 


9.10 人 小结 


本 章 讲述 了 文本 分 析 方 面 的 知识 。 


佳 实践 。 








首先 ， 我 们 给 出 了 文本 分 析 中 剔除 停 用 词 的 一 个 最 








介绍 词 袋 模型 时 ， 我 们 还 创建 了 一 个 词 袋 来 存放 文档 内 出 现 的 单词 。 此 外 ， 我 们 还 根 
据 所 有 的 单词 计数 ， 为 每 个 文档 生成 了 一 个 特征 向 量 。 
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分 类 算法 是 机 器 学 习 算法 中 的 一 种 ， 用 来 给 特定 事物 进行 分 类 。 朴 素 贝 叶 斯 分 类 是 
概率 算法 ， 它 基于 概率 与 数理 统计 中 的 贝 叶 斯 定理 。 这 里 ， 贝 叶 斯 定理 指出 ， 后 验 概率 
与 先 验 概率 和 相似 度 之 积 成 正比 。 




















































































































第 10 章 将 对 机 器 学 习 进 行 更 深入 的 介绍 ， 因 为 这 是 一 个 充满 了 无 限 希望 的 研究 领域 。 
也 许 有 一 天 ， 它 将 完全 蔡 代 人 类 劳动 力 。 届 时 ， 以 气象 数据 为 例 ， 来 说 明 Python 机 器 学 习 


库 scikit-learn 的 具体 使 用 方法 。 












































最 近 ， 预 测 性 分 析 与 机 器 学 习 已 经 色 
相对 于 其 他 领域 而 言 ， 我 们 对 这 两 个 领域 取得 突飞猛进 发 展 的 期 待 要 更 热切 一 些 。 甚 至 有 





人 预言 ， 机 器 学 习 的 发 展 速 度 将 日 
智能 《AGI) 的 发 展现 状 来 看 ， 这 只 是 一 个 遥远 的 乌托邦 而 已 ; 
是 机 器 学 习 已 经 取得 了 长 足 的 进步 ， 可 用 于 自 芍 车 、 聊 天 机 器 人 和 AI 助手 ， 如 亚马逊 的 
Alexa. RHI Siri 以 及 Ok Google。 然 而 














当然 ， 就 目前 人 工 通 


























[| 








益 加 快 ， 因 此 ， 几 十 年 内 ， 人 -了 
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UDUDBULULLLL Lu 


内 入 许多 行业 的 主流 数据 科学 和 数据 分 析 的 行列 。 




















[就 会 被 智能 机 器 所 替代 。 























目前 即使 是 





行 非常 























图 片 中 是 否 含有 猫 或 狗 等 ， 























' 各 样 的 技术 ， 包 括 机 器 学 习 
款 ， 或 者 某 位 女性 客户 是 否 有 孕 在 身 。 











为 了 完成 这 些 预 测 ， 


过 ， 它 们 又 被 称 为 预测 变量 。 进 行 预测 时 ， 特 征 通 常用 了 




















简单 的 关 


需要 大 量 的 运算 和 数据 作为 支撑。 预测 性 分 析 则 需要 借助 各 








但 

















UE, WFE A A 























需要 从 海量 数据 中 提取 特征 。 关 于 特征 ， 我 们 











， 才 能 做 出 有 用 的 判断 。 例 如 ， 茶 客户 是 否 有 能 力 偿还 其 贷 











之 前 也 曾经 提 到 





























输入 变量 。 


实质 上 ， 特 征 





可 以 











从 数据 中 提取 ， 然 后 要 做 的 是 ， 找 到 一 个 函数 ， 将 特征 映射 到 目标 上 。 当 然 ， 这 个 目标 








可 能 是 已 知 的 ， 也 可 能 是 未 知 的 。 寻 找 合 适 的 函数 很 难 ， 
算法 和 模型 组 合 在 一 起 ， 也 就 是 所 谓 的 集成 。 集 成 的 输 则 
的 结果 ， 也 可 以 是 所 有 结果 的 一 个 折 中 。 但 是 ,我 们 还 可 以 使 用 男儿 
门 不 会 在 本 章 使 用 集成 技术 , 但 是 大 家 还 是 有 必要 记 住 这 种 























法 来 获得 最 终结 果 。 虽 然 我 
技术 。 





实际 上 ， 在 前 面 的 章节 中 我 们 已 经 接触 过 机 器 学 习 算 法 了 ， 朴 素 贝 叶 











为 此 ， 
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38) 8$ 














结果 可 以 是 一 组 模型 投票 决 出 











其 中 之 一 。 我 们 可 以 将 机 器 学 习 分 为 下 列 几 种 类 型 。 


。 监督 学 习 : 要 求 为 训练 数据 提供 标签 , 也 就 是 说 需要 给 


















































要 把 多 种 不 同 的 








种 更 加 高 级 的 算 


























斯 分 类 算法 便 是 





法 提供 已 经 分 好 类 的 样本 。 





利用 带 标签 的 训练 数据 , 我们 可 以 创建 一 个 函数 , 将 输入 变量 映射 为 相应 的 输出 变 
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下 面 我 们 以 天 气 预 报 为 例 进行 说 明 。 本 章 会 大 量 月 
虽然 这 个 程序 库 提 供 了 许多 聚 类 分 析 算法 、 回 归 算 法 和 分 类 算法 ， 但 是 ， 还 有 一 些 


learns 

















量 。 比 如 ， 如 果 想 对 垃圾 邮件 进行 分 类 ， 那么 我 们 必须 提供 垃圾 邮件 和 正常 电子 邮 











件 的 相应 样本 。 监 督学 习 算 法 的 例子 包括 线性 回归 、 





逻辑 回归 、 状 态 向 量 机 、 随 机 























森林 、K 最 近邻 算法 等 。 
无 监督 学 习 : 这 类 机 器 学 习 算 法 不 需要 人 工 输入 。 




















它 能 够 自行 发 现 数据 中 存在 














的 模式 ， 如 大 型 数据 集中 的 聚 类 等 。 无 监督 学 习 旬 





RX. 








法 的 例子 包括 K 均值 和 分 层 



























































强化 学 习 : 这 种 类 型 的 学 习 技术 无 需 进 行 辅导 ， 但 
例如 一 台电 脑 可 以 跟 它 自己 下 棋 ， 或 者 玩 1983 的 
和 热 核 战争 游戏 。 











































































































是 T. s ood HB. 
字 游 戏 


有 到 一 个 Python 程序 库 ， 即 scikit- 





























机 器 学 习 算 法 未 包含 在 scikit-learn 中 ， 因 此 ， 我 们 还 需要 用 到 其 他 一 些 API。 本 章 涉及 的 





10. 1 





主题 如 下 。 


预 处 理 
基于 逻辑 回归 的 分 类 

基于 支持 向 量 机 的 分 类 

基于 ElasticNetCV 的 回归 分 析 

支持 向 量 回归 

基于 相似 性 传播 〈affinity propagation? 的 聚 类 分 析 
均值 漂移 算法 
遗传 算法 
神经 网 络 
决策 树 算法 












































预 处 理 











在 scikit-learn 库 中 提供 了 一 个 预 处 理 模 块 ， 下 面 我 们 将 详细 介绍 该 模块 。 在 第 9 章 中 ， 








我 们 已 

















经 安装 了 scikit-learn 并 且 已 经 做 过 一 次 数据 预 处 理 了 ， 
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一 些 机 器 学 习 算 法 对 某 些 数据 比较 头疼 ， 因 为 这 些 数 据 不 服从 高 斯 分 布 ， 即 不 满足 数学 期 
望 为 0、 标准 方差 为 1 的 和 条件。 模块 sklearn.preprocessing 从 而 应 运 而 生 ， 本 节 将 详细 介绍 
这 个 模块 的 使 用 方法 ， 我 们 会 针对 来 自 荷 兰 皇 家 气象 学 会 的 气象 数据 进行 预 处 理 。 比 尔 特 
(DE BILT) 气象 研究 中 心 的 原始 数据 较 多 ， 我 们 所 要 的 数据 只 是 原始 数据 文件 中 的 一 列 而 
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已 ， 这 一 列 记录 的 是 日 降雨 量 。 需 要 的 数据 将 使 用 第 5 章 中 介绍 的 .npy 格式 来 存放 。 下 面 把 
数据 加 载 到 一 个 NumPy 数组 中 。 这 些 整 数值 必须 全 部 乘 以 0.1， 从 而 得 到 以 毫米 为 单位 的 日 


降水 量 。 






























































该 数据 有 一 个 很 诡异 的 地 方 ， 那 就 是 凡是 小 于 0.05mm 的 数值 ， 都 将 用 作 -1。 因 此 ， 


























我 们 把 这 些 数值 全 部 设 为 0.025， 即 0.05 的 一 半 。 在 原始 数据 中 ， 如 果 某 一 天 的 降雨 量 低 




















于 这 些 数 值 ， 那 么 这 一 天 将 不 会 记录 在 案 。 对 于 这 样 的 缺失 数据 ， 我 们 将 完全 忽略 。 我 们 
可 以 那么 做 ， 因 为 本 来 缺失 的 数据 点 就 非常 多 ， 所 以 也 不 差 这 一 点 。 例 如 ， 本 世纪 初 大 约 














缺失 一 年 的 数据 ， 同 时 后 来 许多 天 的 数据 也 是 缺失 的 。 在 preprocessing 模块 中 , 它 的 Imputer 
类 提供 了 许多 处 理 缺 失 数据 的 默认 策略 。 不 过 ， 这 些 策略 对 于 本 节 讨 论 的 内 容 而 言 ， 好 像 
不 太 合适 。 数 据 分 析 如 同一 扇 透 视 数 据 的 窗口 ， 一 扇 通 向 知识 的 窗口 。 数 据 的 清洗 和 填补 
可 以 使 我 们 的 窗口 看 起 来 更 加 清爽 。 可 是 ， 我 们 应 该 注意 不 要 过 于 扭曲 原始 数据 。 























































































































这 里 的 机 器 学 习 样本 的 主要 特征 是 一 个 数组 ， 用 来 存放 表示 一 年 中 各 天 (1~366) H 


期 的 数值 。 这 些 可 以 帮助 解释 季节 影响 因素 。 























期 望 值 、 标 准 差 和 安德森 - 达 林 (Anderson-Darling) 检验 结果 详情 请 参阅 第 4 X 








如 下 。 


Rain mean 2.17919594267 

Rain variance 18.803443919 

Anderson rain (inf, array([ 0.576, 0.656, 0.787, 0.918, 
1.092]), array([ 15. , 10. , Dis. ag 2:55; Lsed4)2) 

















透 过 以 上 输出 内 容 ， 可 以 得 出 可 靠 的 结论 ， 该 数据 不 满足 数学 期 望 为 0 标准 方差 为 1 








的 要 求 ， 因 此 它 不 符合 正 态 分 布 。 在 这 个 数据 集中 ，0 值 占 比 很 大 ， 说 明 在 这 些 天 没有 下 
雨 。 大 的 降雨 量 已 经 越 来 越 军 见 〈 这 倒是 一 件 好 事 )。 数 据 分 布 情况 完全 不 对 称 ， 因 此 ， 这 










































































不 是 一 个 高 斯 分 布 。 下 面 通 过 scale() 函 数 对 数据 进行 缩放 处 理 ， 代 码 如 下 。 

















Scaled = preprocessing.scale(rain) 




















如 今 ， 数 学 期 望 和 标准 方差 已 经 满足 要 求 ， 只 是 数据 的 分 布 还 是 不 对 称 。 


Scaled mean 3.41301602808e-17 
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Scaled variance 1.0 
Anderson scaled (inf, array([ 0.576, 0.656, 0.787, 0.918, 
1.092]), array([ 15. , 10. , bu sk cD b. d) 














有 时 ， 我 们 需要 把 特征 值 由 数值 型 转换 为 布尔 型 。 例 如 ， 进 行文 本 分 析 时 就 经 常 需要 
































进行 此 类 变换 ， 以 简化 计算 。 这 时 ， 可 以 借助 binarize0 函 数 进行 类 型 转换 ， 人 代码 如 下。 





binarized = preprocessing.binarize(rain) 
print(np.unique(binarized), binarized.sum()) 

















默认 情况 下 ， 这 将 生成 一 个 新 数组 ， 此外， 我 们 还 让 它 进 行 了 某 些 运算 。 默 认 的 阔 值 








为 0。 也 就 是 说 ， 正 值 用 1 BR, PEN 0 EHI. 

















[ 0. 1.] 24594.0 











进行 分 类 时 ， 类 LabelBinarizer 可 以 用 整数 来 标注 类 别 。 











lb = preprocessing.LabelBinarizer() 
lb.fit(rain.astype(int)) 
print(lb.classes ) 





上 述 代码 的 输出 0—62 的 一 组 整数 。 相 关 代码 摘自 本 书 代 码 包 中 的 ch-10.ipynb 文件 。 





import numpy as np 
from sklearn import preprocessing 
from scipy.stats import anderson 


rain = np.load('rain.npy') 

rain = .1 * rain 

rain[rain < 0] = .05/2 

print("Rain mean", rain.mean()) 
print("Rain variance", rain.var()) 
print ("Anderson rain", anderson (rain)) 


Scaled = preprocessing.scale(rain) 
print("Scaled mean", scaled.mean()) 
print("Scaled variance", scaled.var()) 
print("Anderson scaled", anderson(scaled)) 


binarized = preprocessing.binarize(rain) 





print(np.unique(binarized), binarized.sum()) 


lb = preprocessing.LabelBinarizer() 
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lb.fit(rain.astype (int)) 
print (lb.classes ) 


10.2 基于 远 辑 回归 的 分 类 






































逻辑 回归 是 一 种 分 类 算法 ， 这 种 算法 可 以 用 于 预测 事件 发 生 的 概率 或 者 某 事物 属于 某 
一 类 别 的 概率 。 对 于 多 元 分 类 问题 ， 可 以 将 其 简化 为 二 元 分 类 问题 。 在 最 简单 的 情形 下 ， 
某 一 类 别 的 概率 高 ， 则 意味 着 另 一 个 类 别 的 概率 低 。 罗 辑 回 归 是 以 logistic 函数 为 基础 的 ， 
该 函数 的 取 值 介 于 0 一 1 中 间 ， 这 与 概率 值 正好 吻合 。 因 此 ， 可 以 利用 logistic 函数 将 任意 
值 转换 为 一 个 概率 。 

为 了 使 用 逻辑 回归 进行 分 类 ， 需 要 定义 一 个 相应 的 函数 。 下 面 开 始 创 建 分 类 器 对 象 ， 
代码 如 下 。 

















































































































clf = LogisticRegression(random state-12) 





参数 random state 的 作用 ， 类 似 为 随机 数 生 成 器 指定 的 种 子 。 之 前 已 经 讲 过 ， 交 叉 验 
证 在 避免 过 拟 合 方面 有 着 非常 重要 的 作用 。k- 折 交叉 验证 是 一 种 交叉 验证 技术 ， 它 会 把 数 
据 集 随 机 分 为 k 一 个 小 整数 ) 份 ， 每 一 份 称 为 一 个 包 。 在 这 k 次 迭代 过 程 中 ， 每 个 包 会 
有 1 次 被 用 于 验证 ， 其 余 9 次 用 于 训练 。 对 于 scikit-learn 来 说 ， 它 每 个 类 的 默认 k 值 都 是 
3， 但 是 ， 通 常 需要 将 这 个 值 设 置 得 更 大 一 些 ， 如 5 或 10。 友 代 的 结果 可 以 在 最 后 进行 合 
并 。 对 于 kk- 折 交叉 验证 ，scikit-learn 专门 提供 了 一 个 KFold 类 。 为 了 创建 一 个 具有 10 个 包 
的 KFold 对 象 ， 可 以 使 用 下 列 代码 。 
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kf = KFold(len(y), n folds-10) 





然后 ， 使 用 fitO 函 数 训练 数 据 ， 代 码 如 下 。 


clf.fit(x[train], vy[train]) 











为 了 衡量 分 类 的 准确 性 ， 可 以 使 用 score() 方 法 ， 有 具体 如 下 。 








Scores.append(clf.score(x[test], y[test])) 














在 这 个 例子 中 , 可 以 把 日 期 和 日 降雨 量 作为 特征 ,下 面 使 用 这 些 特征 来 构造 一 个 数组 ， 
代码 如 下 。 























x = np.vstack((dates[:-1], rain[:-1])) 
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因为 要 进行 分 类 ， 所 以 首先 要 定义 无 降雨 天 ， 即 降雨 量 为 0; 然后 用 -1 表示 有 微弱 降 












































雨 的 














小 雨天 ; 最 后 剩 下 的 就 是 雨天 。 我 们 把 这 3 种 类 别 与 数据 值 的 符号 关联 起 来 。 








y = np.sign(rain[1:]) 





据 此 , 得 到 的 平均 准确 率 为 S7%。 在 scikit-learn 的 数据 集 上 ,我 们 的 平均 准确 率 为 41%， 





























代码 


10. 


E 
& [n] 














BZA PRBE PH log regress.py 文件 





o 


from sklearn.linear_model import LogisticRegression 
from sklearn.cross_validation import KFold 

from sklearn import datasets 

import numpy as np 


def classify(x, y): 
clf = LogisticRegression(random state-12) 
scores = [] 
kf = KFold(len(y), n folds-10) 
for train,test in kf: 
clf.fit(x[train], y[train]) 
Scores.append(clf.score(x[test], y[test])) 


print("accuracy", np.mean(scores)) 


rain = np.load('rain.npy') 
dates = np.load('doy.npy') 


x = np.vstack((dates[:-1], rain[:-1])) 
y = np.sign(rain[1:]) 
classify(x.T, y) 


firis example 

iris = datasets.load iris() 
x = iris.data[:, :2] 

y = iris.target 
classify(x, y) 


3 基于 支持 向 量 机 的 分 类 

















支持 向 量 机 〈Support Vector Machines, SVM) 不 仅 可 以 用 来 进行 回归 分 析 ， 如 支持 向 
JH (Support Vector Regression，SVR )， 而 且 还 可 以 用 来 进行 分 类 ， 支 持 向 量 机 算法 是 
































Vladimir Vapnik 于 1993 年 发 明 出 来 的 。 








E A 
SVM 可 以 把 数据 点 映射 到 多 维 空间 的 数据 点 ， 这 种 映射 是 通过 核 函数 来 完成 的 。 这 里 














的 核 函数 既 可 以 是 线性 的 ， 也 可 以 是 非 线 性 的 。 这 样 ， 分 类 问题 就 简化 为 寻找 一 个 将 空间 
一 分 为 二 的 超 平面 ， 或 者 是 能 够 将 数据 点 恰如其分 地 划分 到 不 同 空间 《类 别 ) 的 多 个 超 平 






















































































面 。 利 用 超 平面 进行 分 类 是 一 件 非常 困难 的 事情 ， 因 























为 这 会 引出 软 间隔 的 概念 。 软 间隔 用 









































来 表示 对 错误 分 类 的 容忍 度 ， 通 常 由 一 个 用 C 表示 的 常量 给 出 。 另 一 个 重要 的 参数 就 是 核 

















函数 的 类 型 ， 有 如 下 几 种 。 
。 线性 函数 
。 多 项 式 函 数 
。 径 向 基 函 数 
e Sigmoid 函数 











网 格 搜索 法 可 以 用 来 寻找 合适 的 参数 ， 这 是 一 种 系统 性 的 方法 ， 即 尝试 所 有 可 能 





的 参数 组 合 。 为 了 进行 网 格 搜索 ， 可 以 借助 scikit-learn 提供 的 GridSearchCV 类 。 使 用 
























































这 个 类 时 ， 我 们 可 以 通过 字典 来 提供 分 类 器 或 回归 器 的 类 型 对 象 。 字 典 的 键 就 是 我 们 
将 要 调整 的 参数 ， 而 字典 的 值 就 是 需要 尝试 的 参数 值 的 相应 列表 。 对 于 用 来 进行 分 类 
和 回归 分 析 的 那些 类 ，scikit-learn API 都 有 对 应 的 、 为 其 提供 了 添加 交叉 验证 功能 的 
















































































类 。 不 过 ， 默 认 情 况 下 ， 交 叉 验 证 功能 都 未 启用 。 
代码 如 下 。 








"^i 











创建 一 个 GridSearchCV XJ £ , 





clf = GridSearchCV (SVC(random state-42, max i 


['linear', 'poly', 'rbf'], 'C':[1, 10]Jj) 





ter-100), ('kernel': 





上 面 的 代码 规定 了 最 多 迭代 次 数 ， 这 个 数字 不 要 太 大 ， 否 则 对 我 们 的 耐心 绝对 是 一 个 
严峻 的 考验 。 此 外 ， 这 里 没有 启用 交叉 验证 ， 为 的 是 加 速 处 理 过程 。 而 且 ， 我 们 还 指定 了 




















核 方 法 的 类 型 以 及 软 间 隔 的 相应 参数 。 
































上 述 代码 为 可 能 的 参数 变异 创建 了 一 个 2X3 的 网 格 。 如 果 时 间 宽 裕 , 我 们 可 以 创建 一 
更 大 的 网 格 来 包含 更 多 的 可 能 值 。 男 外 ， 我 们 可 以 把 GridSearchCV 的 cv 参数 的 值 设 为 























预期 的 包 总 量 ， 如 5 或 10。 实 际 上 ， 最 多 迫 代 次 数 设置 得 









































越 高 越 好 。 至 于 不 同 的 核 方 法 ， 









































可 以 根据 拟 合 的 实际 情况 择机 而 用 。 如 果 把 参数 verbose 设置 为 一 个 非 零 整数 , 那 就 可 以 得 
到 每 个 参数 值 组 合 更 为 详尽 的 输出 信息 ， 如 执行 时 间 等 。 
大 小 的 顺序 ， 如 1 一 10 000， 依 次 变换 soft-margin 参数 的 取 值 ， 这 时 可 以 借助 NumPy 的 





logspace0 函 数 来 完成 。 
使 用 这 个 分 类 器 时 ， 在 天 气 数据 上 得 到 的 准确 怕 























通常 情况 下 ， 我 们 希望 按照 幅 值 


























FE 是 56%， 在 高 尾 花 样本 数据 集 上 得 到 
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的 准确 性 是 8296. GridSearchCV 的 grid_scores_ 区 保存 有 网 格 搜索 的 成 效 数据 。 对 于 天 气 数 
据 ， 成 效 数据 如 下 。 
[mean: 0.42879, std: 0.11308, params: {'kernel': 'linear', 'C': 1}, 
mean: 0.55570, std: 0.00559, params: ('kernel': 'poly', 'C': 1j, 
mean: 0.36939, std: 0.00169, params: ('kernel': 'rbf', 'C': 1}, 
mean: 0.30658, std: 0.03034, params: ('kernel': 'linear', 'C':10j, 
mean: 0.41673, std: 0.20214, params: ('kernel': 'poly', 'C': 10}, 
mean: 0.49195, std: 0.08911, params: ('kernel': 'rbf', 'C': 10j] 
对 于 意 尾 花样 本 数据 来 说 ， 我 们 的 成 绩 如 下 。 
[mean: 0.80000, std: 0.03949, params: ('kernel': 'linear', 'C': 1}, 
mean: 0.58667, std: 0.12603, params: ('kernel': 'poly', 'C': 1}, 
mean: 0.80000, std: 0.03254, params: ('kernel': 'rbf', 'C': 1), 
mean: 0.74667, std: 0.07391, params: ('kernel': 'linear', 'C':10)], 
mean: 0.56667, std: 0.13132, params: ('kernel': 'poly', 'C': TOF, 
mean: 0.79333, std: 0.03467, params: ('kernel': 'rbf', 'C': 10j] 
相关 代码 取 自 本 书 代码 包 中 的 ch-10.ipynb 文件 。 
from sklearn.svm import SVC 
from sklearn.grid search import GridSearchCV 
from sklearn import datasets 
import numpy as np 
from pprint import PrettyPrinter 
def classify(x, y): 
clf = GridSearchCV(SVC(random state-42, max iter-100), í('kernel': 
['linear', 'poly', 'rbf'], 'C':[1, 10]Jj) 
clf.fit(x, y) 


print("Score", clf.score(x, y)) 


PrettyPrinter().pprint(clf.grid scores ) 


rain = np.load('rain.npy') 
dates = np.load('doy.npy') 
x = np.vstack((dates[:-1], rain[:-1])) 


np.sign(rain[1:]) 
y) 


y 
classify(x.T, 


#iris example 
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iris = datasets.load iris() 
x = iris.data[:, :2] 

y = iris.target 
classify(x, y) 


10.4 ”基于 ElasticNetCV 的 回归 分 析 
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单 性 网 络 正则 化 (Elastic Net Regularization) 是 一 种 降低 回归 分 析 的 过 拟 合 风险 的 


方法 。 弹 性 网 络 正则 化 实际 上 就 是 LASSO (The Least Absolute Shrinkage and Selection 



































Operator, LASSO) 算法 和 岭 回归 方法 的 线性 组 合 。LASSO 能 够 有 效 约束 LL1 
哈 顿 距离 。 对 于 两 点 来 说 ，L1 范 数 表 示 的 是 它们 坐标 值 之 差 的 绝对 值 之 和 。 
法 使 用 Ll 范 数 的 平方 作为 惩罚 项 。 处 理 
m 
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范 数 或 曼 
岭 回归 方 





P 


归 问 题 时 ， 拟 合 优 度 通常 是 由 所 谓 的 了 平方 
系数 来 判断 的 。 令 人 遗憾 的 是 ，R 平方 的 定义 并 不 统一 。 此 外 ， 这 个 名 称 还 有 误 


导 之 嫌 ， 因 为 实际 上 它 可 以 为 负数 。 就 拟 合 优 度 而 言 ， 最 好 的 情况 下 其 判定 系数 为 1 。 
根据 判定 系数 的 定义 看 ， 其 允许 的 取 值 范围 还 是 不 小 的 ,但 是 我 们 的 目标 很 明确 ， 就 是 






































设法 让 它 向 1 靠拢 。 
下 面 我 们 使 用 10- 折 交叉 验证 并 定义 一 个 ElasticNetCV 对 象 ， 代 码 如 下 。 





clf = ElasticNetCV (max iter-200, cv=10, 11 ratio = [.1, .5, .7, . 





4995. X]) 






































XE, ElasticNetCV 类 使 用 了 一 个 名 为 11 ratio 的 参数 ， 其 取 值 为 0 一 1。 如 果 该 参数 





























的 值 为 0， 只 使 用 岭 回 归 算 法 ， 如 果 该 参数 的 值 为 1， 只 使 用 LASSO 回归 算法 ; 











使 用 混合 算法 。 对 于 这 个 参数 ， 可 以 给 它 指定 单个 数值 ， 也 可 以 给 它 提供 一 个 数值 列表 。 


对 于 降雨 数据 ， 我 们 得 分 情况 如 下 。 


Score 0.0527838760942 











人 否则， 就 




















这 个 得 分 表明 ， 我 们 对 数据 训练 不 足 ， 或 者 说 产生 欠 拟 合 Cunderfting). H 

















Locis 











况 的 原因 有 很 多 ， 如 特征 数量 不 足 或 者 选用 的 模型 不 合适 等 。 对 于 波士顿 房价 数据 ， 针 对 























现 有 的 特征 得 分 如 下 。 


Score 0.683143903455 





























predict() 方 法 可 以 针对 新 数据 进行 预测 。 对 于 预测 的 结果 , 我们 可 以 使 用 散 点 图 来 可 视 








化 其 效果 。 对 于 降雨 数据 ， 得 到 的 散 点 图 如 图 10-1 所 示 。 
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降雨 量 及 其 预测 值 的 散 点 图 












Target 


























观察 图 10-1 可 以 发 现 ， 这 次 的 拟 合 效果 不 佳 ， 即 欠 拟 合 。 穿 过 原点 的 对 角 线 ， 才 是 最 
理想 的 拟 合 曲线 ， 就 像 图 10-2 所 示 的 波士顿 房价 数据 拟 合 情 况 。 








波士顿 房价 数据 拟 合 





50 1 — Perfect Fit 





Target 























图 10-2 


相关 代码 摘自 本 书 代码 包 中 的 ch-10.ipynb 文件 。 








from sklearn.linear model import ElasticNetCV 
import numpy as np 

from sklearn import datasets 

import matplotlib.pyplot as plt 


def regress(x, y, title): 
clf = ElasticNetCV (max iter-200, cv-10, 11 ratio = [.1, .5, .7, .9, 


10.5. 支持 向 量 回归 


clf.fit(x, y) 


print("Score", clf.score(x, y)) 


pred = clf.predict(x) 

plt.title("Scatter plot of prediction and " + title) 
plt.xlabel("Prediction") 

plt.ylabel("Target") 





plt.scatter(y, pred) 

# Show perfect fit line 

if "Boston" in title: 

plt.plot(y, y, label-"Perfect Fit") 
plt.legend() 


plt.grid(True) 


plt.show() 
rain = .1 * np.load('rain.npy') 
rain[rain < 0] -» .05/2 


dates = np.load('doy.npy') 


x = np.vstack((dates[:-1], rain[:-1])) 
y = rain[1:] 


regress(x.T, y, "rain data") 


boston = datasets.load boston() 
x — boston.data 
y = boston.target 


regress(x, y, "Boston house prices") 


10.5 支持 向 量 回归 


口 





> 








迫使 我 们 重复 训练 估计 器 ， 因 
计 器 作业 进行 补偿 。 

















如 前 所 述 ， 支 持 向 量 机 也 可 以 用 于 回归 分 析 。 就 回归 来 说 ， 我 们 是 通过 
独 的 点 来 拟 合 数据 的 。 学 习 曲 线 是 一 种 将 学 习 算 法 行为 特点 可 视 化 的 好 办 没 
训练 数据 量 来 说 ， 学 习 曲 线 都 是 训练 成 效 和 测试 成 效 所 考量 的 一 部 分 。 创 建 学 习 
此 会 导致 整体 过 程 变 慢 。 对 此 ， 我 们 可 以 通过 使 用 多 个 3 
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天 平面 而 非 间 























ko FEARR 
1 线 可 能 
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文 持 问 量 回 归 是 需要 进行 标定 处 理 〈scaling〉 的 算法 之 一 。 
我 们 得 到 的 两 个 高 分 如 下 。 








Max test score Rain 0.0161004084576 
Max test score Boston 0.662188537037 

















这 与 ElasticNetCV 类 得 到 的 结果 相仿 。 为 此 ， 许 多 scikit-learn 类 都 提供 了 一 个 n jobs 


参数 。 根 据 经 验 ， 通 常 系统 中 有 几 个 CPU， 我 们 就 创建 几 个 作业 。 创 建 作业 时 ， 可 以 借助 
Python 标准 的 多 进程 API。 为 了 进行 训练 和 测试 ， 可 以 调用 learning_curve0) 函 数 ， 代 码 
如 下 。 


术语 
































train sizes, train scores, test scores = learning curve(clf, X, Y, 


n jobs-ncpus) 





求 平 均 数 ， 然 后 画 出 相应 的 得 分 情况 。 





plt.plot(train sizes, train scores.mean(axis-1), label-"Train score") 
plt.plot(train sizes, test scores.mean(axis-1), '--', label-"Test score") 





降雨 数据 的 学 习 曲线 大 致 如 图 10-3 所 示 。 











降雨 量 
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图 10-3 














学 习 曲线 在 日 常生 活 中 也 较 常见 ， 即 练习 的 次 数 越 多 ， 学 到 的 就 越 多 。 按 照 数 据 分 析 
在 来 讲 ， 数 据 越 多 ， 学 习 的 效果 越 好 。 如 果 训 练 成 绩 不 错 ， 但 是 测试 效果 不 好 ， 这 就 说 

































































明 出 现 了 过 拟 合 现象 。 也 就 是 说 ， 我 们 的 模型 只 适用 于 训练 数据 。 图 10-4 所 示 是 波士顿 房 
价 数 据 的 学 习 曲 线 ， 它 看 起 来 更 好 一 些 。 




















n jobs-ncpus) 
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图 10-4 
代码 取 自 本 书 代码 包 中 的 sv. regress.py 文件 。 
import numpy as np 
from sklearn import datasets 
from sklearn.learning curve import learning curve 
from sklearn.svm import SVR 
from sklearn import preprocessing 
import multiprocessing 
import matplotlib.pyplot as plt 
def regress(x, y, ncpus, title): 
X = preprocessing.scale (x) 
Y = preprocessing.scale(y) 
clf = SVR(max iter-ncpus * 200) 
train sizes, train scores, test scores - learning curve(clf, X, Y, 


', label-"Test 


lt.figure() 
lt.title(title) 
lt.plot(train sizes, train scores.mean(axis-1), label-"Train score") 
lt.plot(train sizes, test scores.mean(axis-1), '-- 
5) 
rint ("Max test score " + title, test scores.max()) 
plt.grid(True) 
plt.legend(loc-2'best') 
plt.show() 
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rain = .1 * np.load('rain.npy') 
rain[rain < 0] = .05/2 
dates = np.load('doy.npy') 


x = np.vstack((dates[:-1], rain[:-1])) 
y = rain[1:] 

ncpus = multiprocessing.cpu count () 
regress(x.T, y, ncpus, "Rain") 


boston = datasets.load boston() 
x = boston.data 

y = boston.target 

regress(x, y, ncpus, "Boston") 


10.6 基于 相似 性 传播 算法 的 聚 类 分 析 























聚 类 分 析 ， 就 是 把 数据 分 成 一 些 组 ， 这 些 组 即 所 谓 的 聚 类 。 聚 类 分 析 通 常 无 需 提 供 
目标 数据 ， 从 这 个 意义 上 来 说 ， 它 属于 无 监督 学 习 方法 。 一 些 聚 类 算法 需要 对 聚 类 数 进 
行 推 测 ， 而 另 一些 聚 类 算法 则 不 必 如 此 ， 相 似 性 传播 (Affinity Propagation; APO 算法 就 
属于 后 一 类 算法 。 数 据 集中 的 各 个 元 素 都 会 通过 特征 值 被 映射 到 欧 氏 空间 ， 然 后 计算 数 
据点 之 间 的 欧 氏 距离 ， 以 此 构建 一 个 和 矩阵， 这 个 矩阵 就 是 AP 算法 的 基础 。 因 为 这 个 和 窍 阵 
可 能 会 迅速 膨胀 ， 对 此 我 们 一 定 要 当心 ， 不 要 让 它 耗 尽 内 存 。 实 际 上 ，scikit-learn 程序 库 
提供 了 一 个 实用 程序 ， 来 帮 有 我 们 生成 结构 化 数据 。 下 面 我 们 通过 代码 生成 3 个 数据 块 ， 
具体 如 下 。 

















































































































































































































x, _ = datasets.make blobs(n samples-100, centers-3, n features-2, 
random state-10) 





调用 euclidean distances) K% — GU n ri tE SU ABE. 





S = euclidean distances (x) 














利用 这 个 和 矩阵， 我们 就 可 以 给 数据 标注 其 所 属 的 聚 类 了 ， 代 码 如 下 。 





aff pro = cluster.AffinityPropagation().fit(S) 
labels = aff pro.labels 











绘制 聚 类 后 ， 得 到 的 图 像 如 图 10-5 所 示 。 
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图 10-5 


以 上 代码 摘自 本 书 代 码 包 中 的 ch-10.ipynb.py 文件 。 














T 


from sklearn import datasets 

from sklearn import cluster 

import numpy as np 

import matplotlib.pyplot as plt 

from sklearn.metrics import euclidean distances 





x, _ = datasets.make blobs(n samples-100, centers-3, n features-2, 
random state-10) 
S = euclidean distances (x) 


aff pro = cluster.AffinityPropagation().fit(S) 
labels = aff pro.labels 
styles = ['o', 'x', '^'] 
for style, label in zip(styles, np.unique(labels)): 
print(label) 
plt.plot(x[labels == label], style, label-label) 
plt.title("Clustering Blobs") 
plt.grid(True) 
plt.legend(loc-2'best') 
plt.show() 


10.7. 均值 漂移 算法 














均值 漂移 算法 是 另外 Lp he 目前 ， 这 个 算法 已 经 成 功 应 
用 于 图 像 处 理 。 该 算法 通过 迭代 来 寻找 一 个 密度 函数 的 最 大 值 。 展 示 均 值 漂移 算法 前 ， 我 
Te 下 面 来 创建 DataFrame 并 计算 






































212 第 10 章 预测 性 分 析 与 机 器 学 习 


其 数据 的 平均 值 ， 代 码 如 下 。 


df = pd.DataFrame.from records(x.T, columns-['dates', 'rain']) 
df = df.groupby('dates').mean() 














df.plot() 


结果 如 图 10-6 所 示 。 





40 


35 
































基于 均值 漂移 算法 的 聚 类 代码 如 下 所 示 。 


x = np.vstack((np.arange(1, len(df) + 1) , df.as matrix().ravel())) 


X = x.T 
ms = cluster.MeanShift() 
ms.fit (x) 


labels = ms.predict (x) 


如 果 使 用 不 同 的 线 宽 和 阴影 ， 那 么 绘制 出 的 3 个 聚 类 如 图 10-7 所 示 。 









































摘自 本 书 代 码 包 中 的 ch-10.ipynb 文件 。 





10. 





;去 在 
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如 你 所 见 ， 我 们 根据 年 内 日 平均 雨量 〈 以 mm 为 单位 ) 划分 出 3 个 聚 类 。 完 整 的 代码 


lii 








T 





import numpy as np 

from sklearn import cluster 
import matplotlib.pyplot as plt 
import pandas as pd 


rain = .1 * np.load('rain.npy') 

rain[rain < 0] = .05/2 

dates = np.load('doy.npy') 

x = np.vstack((dates, rain)) 

df = pd.DataFrame.from records(x.T, columns-['dates', 'rain']) 

df = df.groupby('dates').mean() 

df.plot() 

x = np.vstack((np.arange(1, len(df) + 1) , df.as matrix().ravel())) 
x= x.T 

ms = cluster.MeanShift() 





ms.fit(x) 
labels = ms.predict (x) 


plt.figure() 
grays = ['O', '0.5', '0.75'] 


for gray, label in zip(grays, np.unique (labels)): 
match = labels == label 
x0 = x[:, 0] 
xl = x[:, 1] 
plt.plot(xO[match], xl[match], lw-label-1, label-label) 
plt.fill between (x0, x1, where-match, color-gray) 





plt.grid(True) 
plt.legend() 
plt.show() 


8 遗传 算法 









































遗传 算法 是 本 书 最 具 争 议 的 部 分 ， 这 





算法 基于 生物 学 领域 的 进化 论 。 这 种 类 型 的 算 


























在 搜索 和 优化 方面 用 途 广泛 ， 例 如 ， 可 以 使 用 遗传 算法 来 搜索 回归 问题 或 分 类 问题 的 最 














佳 参数 。 








在 地 球 上 ， 人 类 及 其 他 生命 形式 都 通过 染色 体 来 携带 遗传 信息 。 通 常 ， 我 们 使 用 字符 串 
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对 染色 体 进 行 建 模 。 在 遗传 算法 中 ， 我 们 也 沿 月 

一 步 是 ， 

使 用 待 解决 问题 的 已 知 候选 解 来 进行 初始 化 。 之 
谓 的 逐 代 〈generation ) 演化 。 对 于 每 一 代 个 体 ， 


些 个 体 , 作为 交配 个 体 供 下 一 步 杂 交 
下 面 介绍 两 种 遗传 入 

















使 















































































































































e ZX (Crossover): 这 个 遗传 操作 就 是 通过 交配 的 方式 来 产生 新 个 体 。 
体操 作 是 ， 亲 本 的 遗传 信息 相互 交换 ， 从 而 产生 两 
新 的 个 体 ， 第 1 个 个 体 前 半 段 遗传 信息 取 自 父 本 ， 后 半 段 取 自 母 本， 第 2 个 个 体 正好 


^3 


























相反 。 例 如 ， 假 设 遗 传 信息 使 








一 方 摘 取 前 80 个 元 素 ， 然 后 从 另 一 方 取得 后 20 个 元 素 。 当 然 ， 对 于 遗传 
能 够 通过 交叉 两 个 以 上 的 父 本 和 母 本 来 繁殖 新 个 体 ， 这 一 技术 正 处 于 研究 阶 








F Cgenetic operators)， 它 们 可 以 


交叉 Cone-point crossover) 操作 ， 具 












































































































































了 这 种 类 似 的 遗传 信息 表示 方法 。 
利用 随机 个 体 初始 化 种 群 并 使 用 相应 的 表示 方法 表达 遗传 信息 。 此 外 ， 我 们 还 可 以 
后 ， 我 们 需要 进入 一 个 迭代 处 理 过 程 ， 即 所 
法 都 会 根据 预定 义 的 适应 度 函 数 来 选择 一 
j。 适 应 度 函 数 的 作用 是 评估 个 体 与 满意 解 的 接近 程度 。 
j 来 生成 新 的 遗传 信息 。 


这 里 将 介绍 单 点 





法 的 P E) 

















] 100 个 列表 元 素来 表示 ， 那 么 交叉 操作 可 以 从 亲本 中 的 
法 来 说 ， 它 
E (详情 参 








见 Eiben, A. E. et al. Genetic algorithms with multi-parent recombination, Proceedings of the 


International Conference on Evolutionary Computation- PPSN III. The Third Conference on 
Parallel Problem Solving from Nature: 78-87. ISBN 3-540-58484-6, 1994), 





。 突变 (Mutation): 这 个 遗传 算 子 受 
众 文化 中 屡见不鲜 。 我 们 知道 , 突变 虽然 极为 罕见 ， 








有 时 候 突 变 
传 到 下 一 代 。 





最 终 ， 新 个 体会 取代 旧 个 体 ， 这 时 ， 我 们 就 可 以 














Python 的 DEAP 程序 库 来 演示 遗传 








$ pip3 install deap 











Ei 


















































APIS T. Ap" 


定 突变 率 的 限制 。 300] LS CERE E 











BE 影 和 大 








旧 是 却 能 带 来 致命 危害 。 不 过 ， 
也 能 带 来 我 们 梦 呆 以 求 的 特性 ,而 且 在 某 些 情况 下 ,这 些 特性 还 能 够 遗 




















PF， 我 们 将 


法 。 我 们 安装 DEAP， 上 有 具体 方法 如 下 。 





首先 ， 定 义 最 大 化 适应 度 的 Fitness 子 类 ， 具 体 如 下 。 


creator.create("FitnessMax", 


然后 ， 为 种 群 中 的 个 体 定义 一 个 模板 。 


creator.create("Individual", array.array, 





fitness=creator.FitnessMax) 





bas 





.Fitness, weights=(1.0,)) 


typecode-'d', 











DEAP 中 的 工具 箱 用 来 注册 必需 的 函数 。 下 面 创建 一 个 工具 箱 并 注册 初始 化 函数 ， 代 
码 如 下 。 














toolbox 

toolbox. 
toolbox. 
toolbox. 

















= base.Toolbox() 


200) 


















































register("attr float", random.random) 
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register("individual", tools.initRepeat, creator.Individual, 
attr float, 




















toolbox.register("populate", tools.initRepeat, list, toolbox.individual) 

第 1 个 函数 的 作用 是 产生 浮 点 数 ， 这 些 数 的 取 值 范围 为 0 一 1。 第 2 个 函数 的 作用 是 生 
成 一 个 个 体 ， 它 实际 上 是 一 个 由 200 个 浮 点 数组 成 的 列表 。 第 3 个 函数 的 作用 是 创建 由 个 
体 构成 的 列表 ， 这 个 列表 代表 的 是 一 个 种 群 ， 也 就 是 搜索 或 优化 问题 的 一 组 可 能 解 。 

现实 社会 中 ， 大 部 分 人 都 很 “普通 ”或 者 说 很 “正常 ”但 是 也 有 极 少 数 人 很 “另类 ”， 
如 爱 因 斯 坦 。 第 3 章 曾 经 介绍 了 一 个 shapiro0 函 数 ， 它 可 以 用 来 进行 正 态 检验 。 对 于 一 个 
个 体 是 否 为 普通 个 体 , 我 们 需要 通过 其 正 态 检 验 p 值 来 衡量 它 是 普通 个 体 的 可 能 性 有 多 大 。 
































下 面 的 代码 将 定义 一 个 适应 度 函 数 。 


def eval(individual): 


return shapiro(individual)[1], 


下 面 定义 遗传 算 子 ， 代 码 如 下 。 





toolbox. 
toolbox. 
toolbox. 
toolbox. 


下 面 对 这 些 遗 传 算 子 


register 
register 
register 
register 


e 
C 
C 
C 


valuate", 
'mate", 
'muta 
'select", 


val) 
tools.cxTwoPoi 
te", tools.mutFli 

















行 简单 解释 。 























































































































nt) 
pBit, indpb-0.1) 











tools.selTournament, tournsize-4) 
































e evaluate: 即 评估 算 子 。 这 项 操作 用 来 度量 各 个 个 体 的 适应 度 。 本 例 中 ， 正 态 检验 
的 p 值 便 是 适应 度 的 衡量 指标 。 

。 mate: 即 交配 算 子 。 这 项 操作 用 来 产生 子 代 。 本 例 中 采用 的 是 两 点 交叉 。 

e mutate: 即 突变 算 子 。 这 项 操作 会 随机 修改 个 体 。 对 于 由 布尔 值 构成 的 列表 而 言 ， 
这 就 意味 着 某 些 值 会 被 反 转 ， 即 由 True 变 为 False， 或 者 正好 相反 。 

。 mutate: 即 选择 算 子 。 这 项 操作 用 来 选择 可 以 进行 交配 的 个 体 。 

在 上 面 的 代码 中 ， 我 们 规定 使 用 两 点 交叉 ， 同 时 指定 了 属性 被 翻转 的 概率 ， 下 面 生 成 

一 个 由 400 个 个 体 组 成 的 原始 群体 ， 代 码 如 下 。 
pop = toolbox.populate (n-400) 
现在 ， 启 动 进化 过 程 ， 代 码 如 下 。 
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hof = tools.HallOfFame(1) 
stats = tools.Statistics(key-lambda ind: ind.fitness.values) 
Stats.register("max", np.max) 


algorithms.eaSimple(pop, toolbox, cxpb-0.5, mutpb-0.2, ngen-80, 
Stats-stats, halloffame-hof) 





这 个 程序 将 提供 包括 每 代 最 大 适应 度 在 内 的 各 种 统计 信息 。 我 们 给 它 规定 了 交叉 概率 、 
突变 率 和 最 大 代数 (maximum generations)， 即 超过 这 个 代数 后 就 会 停止 运行 。 下 面 的 数据 
就 是 摘自 这 个 程序 输出 的 统计 报告 。 


gen nevals max 

0 400 0.000484774 
1 245 0.000776807 
2 248 0.00135569 
79 250 0.99826 

80 248 0.99826 


可 见 ， 最 初 的 分 布 与 正 态 分 布 相去 甚 远 ， 但 是 ， 最 终 得 到 的 个 体 的 分 布 情况 如 几 10-8 
所 示 。 














00 02 04 0.6 0.8 10 














图 10-8 
相关 代码 摘自 本 书 代 码 包 中 的 ch-10.ipynb 文件 : 


import array 

import random 

import numpy as np 

from deap import algorithms 
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from deap import base 

from deap import creator 

from deap import tools 

from scipy.stats import shapiro 
import matplotlib.pyplot as plt 





creator.create("FitnessMax", base.Fitness, weights-(1.0,)) 
creator.create("Individual", array.array, typecode-'d', 





fitness-creator.FitnessMax) 


toolbox = base.Toolbox() 

toolbox.register("attr float", random.random) 
toolbox.register("individual", tools.initRepeat, creator.Individual, 
toolbox.attr float, 200) 

toolbox.register("populate", tools.initRepeat, list, toolbox.individual) 


def eval(individual): 
return shapiro(individual)[1], 





toolbox.register("evaluate", eval) 

"mate", tools.cxTwoPoint) 

"mutate", tools.mutFlipBit, indpb-0.1) 
toolbox.register("select", tools.selTournament, tournsize-4) 


toolbox.register 
toolbox.register 


( 
( 
( 
( 


random.seed(42) 


pop = toolbox.populate (n-400) 

hof = tools.HallOfFame(1) 

stats = tools.Statistics(key-lambda ind: ind.fitness.values) 
stats.register("max", np.max) 


algorithms.eaSimple(pop, toolbox, cxpb-0.5, mutpb-0.2, ngen-80, 
stats-stats, halloffame-hof) 


print (shapiro (hof[0]) [1]) 
plt.hist (hof[0]) 
plt.grid(True) 

plt.show() 


10.9 ”神经 网 络 





人 工 神经 网 络 CANNO 的 计算 模型 灵感 来 自 高 等 动物 的 大 脑 。 所 谓 神经 网 络 ， 实 际 上 
就 是 由 神经 元 组 成 的 网 络 ， 这 些 神经 元 都 具有 输入 和 输出 。 例 如， 可 以 将 图 片 像素 相关 的 
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数值 作为 神经 网 络 的 输入 ， 然 后 将 神经 元 的 输出 传递 给 下 一 个 神经 元 ， 依 此 类 推 ， 最 终 得 
到 一 个 多 层 网 络 。 神 经 网 络 蕴 涵 了 许多 自 适 应 元 素 ， 这 使 得 它 非常 适合 用 于 处 理 非 线 性 模 
型 和 模式 识别 问题 。 接 下 来 ， 我 们 将 再 次 根据 前 些 年 对 应 某 日 降雨 量 和 前 一 日 降雨 量 来 预 
测 是 否 会 下 雨 。 因 为 后 面 要 用 到 Python Æ theanets， 所 以 这 里 先行 安装 ， 命 令 如 下 。 

































































































































































$ pip3 install theanets nose parameterized 























一 位 技术 评审 在 安装 过 程 中 曾经 遇 到 问题 ， 不 过 更 新 NumPy 和 SciPy 后 ， 问 题 就 迎 丸 
而 解 了 。 首 先 创建 一 个 Experiment， 也 就 是 创建 了 一 个 神经 网 络 ， 然 后 再 对 这 个 网 络 进 行 训 
练 。 下 面 的 代码 将 新 建 一 个 具有 两 个 输入 神经 元 和 一 个 输出 神经 元 的 神经 网 络 。 


















































net = theanets.Regressor(layers-[2,3,1]) 























该 网 络 拥有 一 个 隐藏 层 ， 层 内 含有 3 个 神经 元 ; 另外 ， 这 个 网 络 还 使 用 了 Python 标准 
的 多 进程 API 来 加 速 运算 。 训 练 网 络 所 需 的 数据 包括 训练 样本 和 验证 样本 。 


























train = [x[:N], y[:N]] 
valid = [x[N:], y[N:]] 


net.train(train,valid,learning rate-0.1,momentum-0.5) 














如 果 要 对 验证 数据 进行 预测 ， 可 以 使 用 以 下 代码 。 








pred = net.predict(x[N:]).ravel() 









































scikit-learn 程序 库 提 供 了 一 个 实用 函数 ， 可 以 用 来 计算 分 类 器 的 准确 性 。 
准确 性 的 具体 代码 。 








7 
3 
各 





dt 
































print("Pred Min", pred.min(), "Max", pred.max()) 
print("Y Min", y.min(), "Max", y.max()) 
print("Accuracy", accuracy score(y[N:], pred >= .5)) 














注意 ， 输 出 值 可 能 每 次 都 不 一 样 ， 这 是 神经 网 络 的 特性 所 导致 的 。 这 里 的 输出 情况 
如 下 。 




















Pred Min 0.615606596762 Max 0.615606596762 
Y Min 0.0 Max 1.0 
Accuracy 0.634133878385 


相关 代码 摘自 本 书 代 码 包 中 的 ch-10.ipynb 文件 。 





import numpy as np 
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import theanets 

import multiprocessing 

from sklearn import datasets 

from sklearn.metrics import accuracy score 


rain = .1 * np.load('rain.npy') 
= .05/2 
dates = np.load('doy.npy') 
x = np.vstack((dates[:-1], np.sign(rain[:-1]))) 
x= x.T 


rain[rain « 0] 


y = np.vstack(np.sign(rain[1:]1),) 
N = int(.9 * len (x)) 


train = [x[:N], y[:N]] 
valid = [x[N:], y[N:]] 








net = theanets.Regressor(layers-[2,3,1]) 


net.train(train,valid,learning rate-0.1,momentum-0.5) 


pred = net.predict (x[N:]).ravel() 

print("Pred Min", pred.min(), "Max", pred.max()) 
print("Y Min", y.min(), "Max", y.max()) 
print("Accuracy", accuracy score(y[N:], pred >= .5)) 


10.10 ”决策 树 


形 如 ifa: else b 这 样 的 判断 语句 ， 恐 怕 是 Python FEF F d$ LBS). WE 
和 组 合 这 些 语 句 ， 就 能 够 建立 所 谓 的 决策 树 。 决 策 树 跟 老 式 流程 图 非常 类 似 ， 只 不 过 流 
程 图 允许 循环 而 已 。 机 器 学 习 领 域 中 ， 应 用 决策 树 的 过 程 通常 被 称 为 决策 树 学 习 。 进 行 
决策 树 学 习 时 ， 决 策 树 的 末端 节点 通常 又 叫 作 叶 节 点 ， 其 中 存放 着 分 类 问题 的 类 标签 。 
每 个 非 叶 节点 都 对 应 特征 值 之 间 的 一 个 布尔 条 件 判 断 。scikit-learn 使 用 基尼 不 纯度 (Gini 
impurity) 和 粒 作 为 信息 的 衡量 指标 。 实 际 上 ， 这 两 种 指标 衡量 的 是 数据 项 被 错误 分 类 
的 概率 。 决 策 树 非常 易于 理解 、 使 用 、 可 观 化 和 验证 。 为 了 形象 展示 决策 树 ， 可 以 借 
助 Graphviz， 该 软件 可 以 从 Graphviz 官网 下 载 。 此 外 ， 我 们 还 需要 安装 pydot2， 命 令 
如 下 。 


























































































































$ pip3 install pydot2 
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下 面 把 降雨 数据 分 为 训练 集 和 测试 集 两 部 分 , 这 需要 用 到 scikit-learn 提供 的 train_test_ 
split0 函 数 ， 代 码 如 下 。 














x train, x test, y train, y test = train test split(x, y, random state-37) 


创建 DecisionTreeClassifier， 代 码 如 下 。 





clf = tree.DecisionTreeClassifier (random state=37) 





pu 


我 们 可 以 使 用 scikit-learn 的 RandomSearchCV 类 来 试验 各 种 参数 的 取 值 范围 ， 代 码 
如 下 。 





params = ("max depth": [2, None], 
"min samples leaf": sp randint(1, 5), 
"criterion": ["gini", "entropy"]] 


rscv = RandomizedSearchCV (clf, params) 
rscv.fit(x train,y train) 

















经 过 一 番 搜 索 后 ， 得 到 的 最 佳 成 效 和 参数 如 下 。 








Best Train Score 0.703164923517 

Test Score 0.705058763413 

Best params ('criterion': 'gini', 'max depth': 2, 'min samples leaf': 
2} 














在 任何 情况 下 ， 即 使 只 是 想 验 证 我 们 的 设想 ， 都 不 妨 将 决策 树 可 观 化 ， 为 此 ， 可 以 使 
下 以 下 代码 来 绘制 决策 树 的 图 像 。 
































Sio = io.StringIO() 

tree.export graphviz(rscv.best estimator , out file-sio, 
feature names-['day-of-year','yest']) 

dec tree = pydot.graph from dot data(sio.getvalue()) 


print("Best Train Score", rscv.best score ) 
print("Test Score", rscv.score(x test, y test)) 


print("Best params", rscv.best params ) 


from IPython.display import Image 





Image (dec tree.create png()) 

















&| 10-9 所 示 。 
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yest <= 0.5 


entropy 


0.9532 


samples = 29353 
value = [10957, 18396] 


day-of-year <= 253.5 
entropy = 0.9695 
samples = 10960 

value = [6602, 4358] 


entropy = 0.9551 
samples = 8193 
value = [5113, 3080] 


entropy = 0.9958 
samples = 2767 
value = [1489, 1278] 








day-of-year <= 295.5 
entropy = 0.7896 
samples = 18393 

value = [4355, 14038] 


entropy = 0.8141 
samples = 14360 
value = (3616, 10744] 


entropy = 0.6871 
samples = 4033 
value = [739, 3294] 








KI 











在 上 面 的 非 叶 节 点 中 ， 各 种 判断 条 件 都 被 放置 在 最 上 一 行 ， 如 果 条 位 





MA 


10-9 




















侧 的 子 节点 ;和 否则， 就 进入 右 侧 的 子 节 点 。 


























from sklearn.model selection impor 


from sklearn import tree 
from sklearn.model selection impor 
from 


import pydotplus as pydot 
import io 
import numpy as np 


rain = 


a * np.load('rain.npy!) 
30572 


rain[rain « 0] 


dates = np.load('doy.npy').astype( 
x = np.vstack((dates[:-1], 

x= x.T 

y = np.sign(rain[1:]) 

x train, x test, y train, y test - 


random state-37) 


e] 
9 最 大 值 的 类 别 获胜 。 也 就 是 说 ， 决 策 树 预测 输入 样本 属于 该 类 别 。 


FEL. HORAE 
个 叶 节 点 时 ， 节 点 内 最 下 面 一 行 中 具 





进入 

















train test split 





RandomizedSearchCV 


Scipy.stats import randint as sp randint 


int) 


np.sign(rain[:-1]))) 


train test split(x, y, 


clf = tree.DecisionTreeClassifier (random state-37) 
params = ("max depth": [2, None], 
"min samples leaf": sp randint(1, 5), 
"criterion": ["gini", "entropy"]) 
rscv = RandomizedSearchCV (clf, params) 





222 第 10 章 预测 性 分 析 与 机 器 学 习 
rscv.fit(x train,y train) 


Sio = io.StringIO() 

tree.export graphviz(rscv.best estimator , out file-sio, 
feature names-['day-of-year','yest']) 

dec tree = pydot.graph from dot data(sio.getvalue()) 


print("Best Train Score", rscv.best score ) 
print("Test Score", rscv.score(x test, y test)) 
print("Best params", rscv.best params ) 


from IPython.display import Image 
Image (dec tree.create png()) 





10.11 小 结 


本 章 致力 于 介绍 预测 建 模 和 机 器 学 习 。 对 于 本 章 涉及 的 这 些 主题 ， 读 者 如 果 有 兴趣 ， 
可 以 进一步 参考 Packt 出 版 的 相关 图 书 。 预 测 性 分 析 通 常 利用 多 种 技术 (其 中 包括 机 器 学 
习 )， 才 能 做 出 有 效 的 预测 ， 如 判断 明天 是 否 有 两 等 。 

SVM 能 够 将 数据 映射 到 多 维 空间 ， 因 此 ， 我 们 通过 它 可 以 把 分 类 问题 简化 为 寻找 最 佳 
的 一 个 或 多 个 超 平面 来 区 隔 数 据点 ， 从 而 达到 分 类 目的 。 
弹性 网 络 正则 化 则 是 LASSO 方法 和 岭 回归 方法 的 线性 组 合 。 处 理 回归 问题 时 ， 拟 合 
优 度 通 常 是 通过 判定 系数 ， 即 所 谓 的 了 平方 来 确定 的 。 一 些 聚 类 算法 需要 推测 聚 类 数 ， 而 
另 一 些 则 没有 这 样 的 要 求 。 

对 于 遗传 算法 ， 我 们 要 做 的 第 一 步 是 根据 随机 个 体 和 遗传 信息 的 表示 方法 来 初始 化 
群 。 对 于 每 一 代 个 体 ， 都 会 根据 预定 义 的 适应 度 函 数 选 出 一 些 个 体 用 于 配种 。 机 器 学 习 领 
域 中 ， 运 用 决策 树 通常 叫 作 决策 树 学 习 。 


第 11 章 将 向 大 家 介绍 互 用 性 和 云 计 算 。 


MR 

































































à 
























































































































































































































































O 110 
Python [] O0 D] D LI L 
UDUUUD 














Python 生态 系统 外 部 还 有 许多 流行 的 程序 设计 语言 ， 如 RR、C、Java 和 Fortran 等 。 在 

本 章 中 ， 我 们 会 深入 研究 如 何 让 Python 与 外 部 环境 之 间 交 流 信息 。 
云 计 算 则 在 将 计算 能 力作 为 一 种 公用 设施 并 通过 互联 网 提供 给 广大 用 户 。 也 就 是 说 ， 

] 户 在 本 地 无 需 购置 大 量 高 性 能 硬件 ， 就 能 方便 获得 强大 的 计算 能 力 。 相 反 ， 云 计算 是 
按 需 付费 的 模式 。 后 面 ， 我 们 会 讨论 如 何 将 Python 代码 放 到 云端 来 使 用 。 云 计算 在 这 个 
快 节奏 的 世界 中 是 一 个 日 新 月 异 的 行业 。 目 前 已 经 有 多 种 云 计 算 服 务 可 供 选 择 ， 如 
PythonAnywhere。 本 书 不 会 专门 讨论 亚马逊 云 计 算 服务 (Amazon Web Services, AWS), 
因为 就 像 前 言 中 提 到 的 那样 , 已 经 有 不 少 书籍 , 如 Willi Richert 和 Luis Pedro Coelho 在 Packt 
Publishing 出 版 的 《Building Machine Learning Systems with Python》 一 书 就 详细 地 讨论 过 这 
个 主题 。 此 外 ， 我 们 还 需要 了 解 站 点 上 的 数据 科学 工具 箱 (Data Science Toolbox )。 它 基于 
Linux 的 数据 分 析 虚 拟 环境 ， 该 环境 既 可 以 在 本 地 运行 ， 也 可 以 放 到 AWS 上 使 用 。 数 据 科 
学 工具 箱 网 站 上 提供 了 许多 简单 明了 的 使 用 说 明 ， 可 以 帮助 我 们 利用 之 前 安装 过 的 Python 
程序 包 来 搭建 一 个 工作 平台 。 

本 章 将 讨论 如 下 相关 主题 。 

。 与 MATLAB/Octave 交换 信息 
























































































































































































































































































































































。 安装 rpy2 
。 连接 及 


。 为 Java 传递 NumPy 数组 





人 


。 集成 SWIG 和 NumPy 





。 集成 Boost 和 Python 





e 通过 f2py 使 用 Fortran 代码 


e PythonAnywhere zx 


11.1 5 MATLAB/Octave 交换 信息 


























MATLAB 及 其 开源 替代 方案 Octave 是 两 款 非常 流行 的 数值 计算 程序 和 程序 设计 语言 。 
Octave 和 MATLAB 的 语法 与 Python 非常 相近 。 事 实 上， 我 们 可 以 通过 网 站 来 查看 它们 在 
语法 方面 的 比 对 情况 ， 例 如 网 上 就 有 相关 信息 。 















































提示 
QD Octave 的 下 载 地 址 为 http://www.gnu.org/software/octave/ 


download.html. 




















笔者 写作 本 书 时 ，Octave 的 最 新 版 本 是 3.8.0。 我 们 知道 ，scipyio.savematO 函 数 能 够 将 
一 个 数组 保存 为 一 个 与 Octave 和 MATLAB 格式 相 兼 容 的 文件 。 使 用 这 个 函数 时 ， 我 们 需 
要 提供 文件 名 和 一 个 字典 作为 其 参数 ， 其 中 字典 用 来 提供 数组 的 名 称 和 数组 值 。 下 面 的 代 
码 摘自 本 书 代 码 包 中 的 ch-11.ipynb 文件 。 





































































































import statsmodels.api as sm 


from scipy.io import savemat 


data loader = sm.datasets.sunspots.load pandas () 
df = data loader.data 
savemat("sunspots", ("sunspots": df.values]) 


上 述 代码 会 将 太阳 黑子 数据 保存 到 名 为 sunspots.mat 的 一 个 文件 中 。 需 要 注意 的 是 ， 
这 里 的 文件 扩展 名 是 自动 添加 上 的 。 然 后 ， 我 们 启动 Octave 的 图 形 用 户 界面 或 者 命令 行 接 
口 并 加 载 刚才 创建 的 文件 ， 将 会 看 到 如 下 数据 。 
































octave:1> load sunspots.mat 

octave:2» sunspots 

sunspots = 
1.7000e+03 5.0000e+00 
1.7010e+03 1.1000e+01 
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1.7020e+03 1.6000e+01 


11.2 安装 rpy2 












































R 语言 在 统计 学 中 非常 流行 , 它 是 由 C 和 Fortran 语言 编写 而 成 的 , 而 且 遵 循 GNU 
通用 公共 许可 证 。R 语言 能 够 为 建 模 、 统 计 检验 、 时 间 序 列 分 析 、 分 类 、 可 视 化 和 聚 
类 分 析 提 供 强 有 力 的 支持 。R 语言 综合 典藏 网 (The Comprehensive R Archive Network, 
CRAN) 及 其 他 资料 档案 库 网 站 为 我 们 提供 了 数 以 生计 的 R 程序 包 ， 来 帮助 我 们 完成 
各 种 任务 。 
























































提示 
我 们 可 以 从 官网 下 载 R。 























rpy2 程序 包 能 够 简化 Python 和 R 之 间 的 交互 操作 。 通 过 pip 安装 rpy2 的 具体 命令 
如 下 。 





$ pip3 install rpy2 


提示 

如 果 之 前 已 经 安装 了 rpy2， 那 么 我 们 可 以 严格 按照 官 
网 上 面 的 技术 指导 来 升级 tpy2， 因 为 这 个 过 程 可 能 稍 
微 有 点 麻烦 。 


11.3 ”连接 R 
































R 提供 了 一 个 datasets 包 ， 其 中 含有 许多 样本 数据 集 。 这 当中 ，morley 数据 集 提供 了 
许多 1879 年 采集 的 光速 测量 数据 。 光 速 是 一 个 基本 的 物理 常数 ， 当 前 已 知 的 数值 已 经 非常 
精确 了 。 另 外 ， 光 速 方面 的 数据 还 可 以 在 scipy.constants 模块 中 找到 。 这 些 R 数据 存放 于 
一 个 含有 3 列 的 R 数据 框 内 。 


。 实验 编号 ， 范 围 为 1 一 5。 
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。 轮 数 ， 每 次 实验 进行 20 轮 ， 所 以 共 进 行 100 次 测量 。 
e 减 去 299 000 后 的 实测 光速 ， 这 里 以 kms 为 单位 。 
利用 rpy2.robjects.r0 〇 函数 ， 我 们 就 可 以 在 Python 环境 中 执行 R 代码 了 。 
现在 我 们 来 加 载 数据 ， 代 码 如 下 。 









































pandas2ri.activate() 


r.data('morley') 














此 外 ，Pandas 库 中 的 pandas.rpy.common 模块 也 为 我 们 提供 了 相应 的 R 接口 ， 因 此 我 
们 建议 读者 使 用 rpy2 的 相应 模块 模块 。 


下 面 我 们 将 数据 加 载 至 pandas DataFrame， 方 法 如 下 。 























df = r['morley!'] 
































下 列 代码 将 根据 实验 对 数据 进行 分 组 并 生成 一 个 5SX2 的 NumPy 数组 。 














samples = dict(list(df.groupby('Expt'))) 


samples = np.array([samples[i]['Speed'].values for i in samples.keys()]) 























有 了 源 自 不 同 实验 的 数据 后 ， 现 在 我 们 想 看 看 这 些 实验 中 的 数据 点 是 否 服从 相同 的 分 
fio Kruskal-Wallis 单 向 方差 分 析 是 一 种 统计 学 方法 ， 可 以 直接 研究 样本 而 无 需 假设 其 概率 
分 布 。 对 于 这 个 检验 来 说 ， 零 假设 意味 着 所 有 样本 具有 相同 的 中 位 数 。 这 种 检验 可 以 通过 
Scipy.stats.kruskal(0 函 数 来 进行 。 完 成 该 检验 的 代码 如 下 。 




























































































print("Kruskal", kruskal(samples[0], samples[1], samples[2], samples[3], 
samples[4])) 


这 个 检验 的 统计 数字 和 p 值 如 下 。 


Kruskal KruskalResult (statistic=15.022124661246552, 
pvalue=0.0046555484175328015) 





























我 们 可 以 拒绝 零 假设 ,但 是 这 样 就 无 法 得 知 哪 一 个 实验 或 哪 一 些 实验 具有 偏离 的 中 位 
žr (deviating median)， 进 一 步 的 分 析 将 作为 一 项 练习 留 给 读者 自己 完成 。 如 果 绘 制 各 实验 
的 最 小 值 、 最 大 值 和 平均 值 ， 就 会 得 到 如 图 11-1 所 示 的 图 形 。 
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x 最 小 值 
6 FHE 

300000 --- 整体 平均 值 
一 一 实际 值 


299900 


299800 


299700 


299600 





























T 


下 列 代码 摘自 本 书 代 码 包 中 的 ch-11.ipynb 文件 。 


import rpy2.robjects as ro 
from rpy2.robjects import pandas2ri 
from rpy2.robjects import r 


from scipy.stats import kruskal 
import matplotlib.pyplot as plt 
import numpy as np 


from scipy.constants import c 


pandas2ri.activate() 
r.data('morley') 


df = r['morley'] 


df['Speed'] = df['Speed'] + 299000 





samples = dict(list(df.groupby('Expt'))) 

samples = np.array([samples[i]['Speed'].values for i in 

samples.keys()]) 

print("Kruskal", kruskal(samples[0], samples[1], samples[2], samples[3], 
samples[4])) 


plt.title('Speed of light') 

plt.plot(samples.min(axis-1), 'x', label-'min') 
plt.plot(samples.mean(axis-1), 'o', label-'mean') 
plt.plot(np.ones(5) * samples.mean(), '--', label-'All mean') 
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plt.plot(np.ones(5) * c/1000, lw=2, label-'Actual') 
plt.plot(samples.max(axis-1), 'v', label-'max') 
plt.grid(True) 

plt.legend() 

plt.show() 


11.4 X Java 传递 NumPy 数组 











就 像 Python 那样 ，Java 也 是 一 种 非常 受 欢 迎 的 程序 语言 。 第 8 章 中 已 经 安装 过 Java, 
因为 这 是 使 用 Cassandra 的 前 提 条 件 。 为 了 运行 Java 代码 ， 需 要 Java 运行 环境 (Java Runtime 
Environment, JRE) 的 支持 。 为 了 开发 程序 ， 还 需要 用 到 Java 开发 工具 包 (Java Development 
Kit, JDK). 


Jython 是 Python 的 纯 Java 实现 。Jython 程序 代码 可 以 使 用 所 有 的 Java 类 。 然 而 ， 利 
用 C 语言 编写 的 Python 模块 却 无 法 导入 Jython. 

这 的 确 是 一 个 让 人 头疼 的 问题 ， 因 为 许多 用 于 数值 运算 和 数据 分 析 的 Python 程序 库 都 
含有 C 语言 实现 的 模块 。 不 过 ，JPype 程序 包 已 经 为 此 提供 了 一 个 解决 方案 ， 要 安装 JPype， 
请 运行 下 列 命令 。 
























































































































































$ pip3 install JPypel 





然后 ， 通 过 下 列 命 令 启 动 Java 虚拟 机 (Java Virtual Machine, JVM 2. 








jpype.startJVM(jpype.getDefaultJVMPath()) 














下 面 利 用 随机 数 来 创建 一 个 名 为 JArray 的 JPype 数组 ， 代 码 如 下 。 











values = np.random.randn(7) 
java array = jpype.JArray(jpype.JDouble, 1) (values.tolist()) 





然后 ， 输 出 各 个 数组 元 素 ， 方 法 如 下 。 


for item in java array: 
jPype.java.lang.System.out.println (item) 





最 后 ， 通 过 下 列 命令 来 关闭 JVM。 


jpype.shutdownJVM() 





o 





下 列 代码 摘自 本 书 代码 包 中 的 ch-11.ipynb 文件 





11.5 集成 SWIG 和 NumPy 229 


import jpype 

import numpy as np 

from numpy import random 
jpype.startJVM(jpype.getDefaultJVMPath()) 


random.seed (44) 





values = np.random.randn(7) 
java array = jpype.JArray(jpype.JDouble, 1) (values.tolist()) 


for item in java array: 
jpype.java.lang.System.out.println (item) 


jpype.shutdownJVM() 





台中 会 输出 以 下 内 容 。 





IE 








在 Jupyter Notebook 中 执行 上 述 代码 时 ，Jupyter fit 











[W 18:23:45.918 NotebookApp] 404 GET 
/nbextensions/widgets/notebook/js/extension.js?v=20170305114358 (::1) 
4.30ms referer-http://localhost:8888/notebooks/ch-12.ipynb 

-0.7506147172558728 

1.3163573247118194 

1.2461400286434303 

-1.6049157412585944 

-1.468143678979905 

-1.7150704579733684 

1.8587836915125544 

JVM activity report 

classes loaded : 32 

JVM has been shutdown 


11.5 集成 SWIG 和 NumPy 


C 语言 是 从 20 世纪 70 年 代 发 展 起 来 的 一 种 广泛 流传 的 程序 语言 。 此 外 ， 还 有 许 许 多 
多 非 标准 的 C 语言 ， 使 得 C 对 其 他 程序 设计 语言 影响 深远 。C 并 非 面向 对 象 的 编程 语言 ， 
从 而 C++ 应 运 而 生 。C++ 是 一 种 面向 对 象 的 编程 语言 ， 它 继承 了 C 语言 的 特性 ， 因 此 ， 可 
以 把 C++ 看 成 是 C 语言 的 一 个 超 集 。 无论 是 C 语言 , 还 是 C++ 语言 ， 都 是 编译 型 编程 语言 。 
我 们 需要 先 把 源 代码 编译 成 目标 文件 ， 然 后 链接 目标 文件 ， 得 到 动态 共享 库 。 幸 运 的 是 ， 
当 集 成 C 和 Python 时 ， 我 们 有 许多 的 选择 余地 ， 例 如 ， 可 以 使 用 简单 封装 和 接口 生成 器 
(Simplified Wrapper and Interface Generator; SWIG) 来 生成 集成 代码 。 


SWIG 在 开发 过 程 中 新 增 了 一 个 步骤 ， 那 就 是 需要 生成 介 于 Python 和 C (或 者 C++) 
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之 间 的 黏合 代码 (Glue Code)。 笔 者 写作 本 : 





统 的 外 部 环境 和 





云 计算 





BEI, SWIG 的 最 新 版 本 是 











3.0.12。 为 了 安装 





SWIG， 还 需要 另外 安装 PCRE (Perl Compatible Regular Expressions，PCRE)。PCRE 是 一 





个 C 语言 正则 表达 式 程序 库 。 笔 者 写作 本 书 时 ，PCRE 的 
PCRE 之 后 ， 可 以 通过 下 列 命令 进行 安装 。 




















$ ./configure 
$ make 
$ make install 















































最 新 版 本 是 8.39。 在 解压 下 载 的 





需要 注意 的 是 ， 执 行 上 面 最 后 一 条 命令 要 求 具 有 root 或 者 sudo 用 户 的 访问 权限 。 此 外 ， 





这 些 命令 同样 


了 如 下 函数 。 





适用 于 SWIG 




















的 安装 。 








下 面 开始 编写 











double sum rain(int* rain, int len); 


后 面 , 我们 将 利用 以 上 函数 对 第 10 章 中 分 析 的 降水 上 


本 书 代码 包 中 的 sum rain. 这 个 函数 的 实现 代码 取 自 本 书 代 码 包 中 的 sum_rain.cpp 





文件 E 





h 文件 。 


double sum rain(int* rain, int len) { 


double sum = 0.; 


for 
if(rain[i] 
sum += 0.02 
) else ( 
sum += 0.1 * 
} 
} 


return sum; 


) 


5; 


rain[i]; 








定义 如 下 SWIG 接口 文件 C 


$module sum rain 


$1 


fdefine SWIG FIL 


finclude 


3} 




















E WITH INIT 


"sum rain.h" 


(int i20; i « len; IFANI 
colo 





LAB LAS BASIL 


个 存放 函 


= 











g& rain 


中 的 sum rain.i 文件 )。 


数 定义 的 头 文件 ， 其 中 定义 





进行 求 和 。 相 关 的 代码 摘自 





We 


$include "/tmp/numpy.i" 


$init $( 
import array(); 


) 


oo 


$apply (int* IN ARRAY1, int DIM1) 


$include "sum rain.h" 











上 述 代 码 需要 用 到 接口 文件 numpyi， 虽 然 在 这 个 
Amp 目录 下 面 ， 但 是 ， 我 们 实际 上 可 以 随意 放置 。 现 在 ， 我 们 来 生成 SWIG SREB, R 











体 如 下 。 


$ swig -c++ -Python sum rain.i 
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((int* rain, int len)}; 





列子 中 ， 接 











文件 numpy.i 是 放置 在 


























上 面 的 步 又 将 会 生成 一 个 名 为 sum rain wrap.cxx 的 文件 。 接 下 来 ， 编 译 sum rain.cpp 


文件 ， 代 码 如 下 。 


$ g++ -02 -fPIC -c sum rain.cpp -I«Python headers dir» 

















在 上 面 的 命令 中 ,我们 需要 给 出 Python 的 C 语言 头 文件 所 在 目录 。 实 际 上 ， 可 以 通过 





以 下 命令 来 显示 该 目录 所 在 位 置 。 











$ python3-config --includes 











因此 ， 实 际 上 是 通过 下 列 命令 进行 编译 的 。 








$ g++ -02 -fPIC -c sum rain.cpp $ (python3-config --includes) 





录 的 位 置 可 能 会 随 着 





xA H 




















Python 版 本 和 操作 系统 的 不 同 而 有 所 变化 ， 一 般 位 于 





/usr/include/ python3.6。 编 译 生成 的 SWIG 封装 文件 如 下 。 


$ g++ -02 -fPIC -c sum rain wrap.cxx $ (python3-config --includes) - 


I«numpy-dir»/core/include/ 




















上 面 的 命令 依赖 于 NumPy 的 具体 安装 位 置 , 安装 


面 找到 ， 代 码 如 下 。 


$ Python3 
>>> import numpy as np 





位 置 可 以 通过 Python 的 Shell 命令 界 
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实际 上 ， 我 们 只 要 除去 最 后 


使 用 
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>>> np. file 




















在 屏幕 中 输出 的 字符 串通 常 由 Python 版 本 、site-packages 和 最 后 面 的 _init .pyc 组 成 。 












































>>> from imp import find module 
>>> find module('numpy') 


在 电脑 上 输入 以 下 命令 。 





的 一 部 分 ， 即 _init .pyc， 就 是 NumPy 的 所 在 目录 。 另 外 ,我 
们 也 可 以 通过 下 面 的 方法 来 取得 NumPy 目录 所 在 位 置 。 














$ g++ -02 -fPIC -c sum rain wrap.cxx $(python3-config --includes) - 
I/usr/local/lib/python3.6/site-packages/numpy/core/include/ 





最 后 ， 我 们 需要 将 编译 生成 的 目标 文件 链接 起 来 ， 具 















































体 如 下 。 


$ g++ -lpython3.6 -dynamiclib sum rain.o sum rain wrap.o -o sum rain.so -L 
/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/1i 


b 





对 于 不 同 的 操作 系统 ， 如 Windows 系统 ， 上 面 的 各 个 步骤 可 能 会 有 所 差异 ， 除 非 我 们 
Cygwin。 如 果 需 要 ， 建 议 读 者 通过 SWIG 用 户 邮 件 列表 (地 址 为 http://www.swig. 
org/mail.html) 或 者 StackOverfow 来 请 求 帮助 。 


我 们 可 以 通过 本 书 代 码 包 中 的 swig demo.py 文件 来 测试 以 上 创建 的 程序 。 












































from sum rain import * 
import numpy as np 
rain = np.load('rain.npy') 
print("Swig", sum rain(rain)) 
rain = .1 * rain 

rain[rain < 0] = .025 
print("Numpy", rain.sum()) 





使 用 以 下 命令 执行 这 个 文件 。 
$ Python3 swig demo.py 


如 果 代 码 和 Python 都 没有 问题 ， 将 看 到 如 下 内 容 。 


























Swig 85291.554999999328 
Numpy 85291.55 
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11.6 集成 Boost 和 Python 


Boost 是 一 个 提供 了 Python 编程 接口 的 C++ 程序 库 ， 下 载 地 址 为 http://www.boost 
org/sers/download/。 笔 者 写作 本 书 时 ，Boost 的 最 新 版 本 是 1.63.0。 下 面 介 绍 一 种 最 简单 同 
时 也 是 最 慢 的 安装 方法 ， 命 令 如 下 。 





















































$ ./bootstrap.sh --prefix-/path/to/boost 
$ ./b2 install 


z 


这 里 ， 参 数 prefix 用 来 规定 安装 目录 。 本 例 中 ,假定 Boost 已 经 安装 到 用 户 home 目录 
下 面 的 Boost 子 目录 中 , 即 ~/Boost。 在 这 个 目录 中 , 我 们 需要 创建 两 个 子 目录 lib 和 include. 
对 于 UNIX 和 Linux 系统 来 说 ， 可 以 通过 以 下 命令 达到 这 个 目的 。 







































































export LD LIBRARY PATH-$HOME/Boost/lib:$(LD LIBRARY PATH] 











对 于 Mac OS X 操作 系统 来 说 ， 需 要 设置 如 下 环境 变量 。 





export DYLD LIBRARY PATH=SHOME/Boost/1Lib 


在 我 们 的 例子 中 ， 我 们 将 这 个 变量 设置 为 以 下 格式 。 





export DYLD_LIBRARY_PATH=/usr/local/Cellar/boost/1.63.0/lib 





这 里 ， 我 们 将 重新 定义 一 个 完成 降雨 量 求 和 的 函数 。 下 列 代码 摘自 本 书 代码 包 中 的 


boost rain.cpp 文件 。 














finclude «boost/python.hpp» 
double sum rain(boost::python::list rain, int len) { 
double sum = 0.; 


for (inti = 0; i < len; i++){ 
int val = boost::python::extract«int» (rain[i]); 
if(val == -1) ( 
sum += 0.025; 
) else ( 
sum += 0.1 * val; 
} 
} 
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return sum; 


BOOST PYTHON MODULE(librain) ( 
using namespace boost::python; 





def("sum rain", sum rain); 

















上 面 这 个 函数 需要 两 个 参数 ， 即 一 个 Python 列表 和 该 列表 的 大 小 。 下 面 演示 如 何 调 
该 函数 ， 完 整 代码 请 参考 本 书 代 码 包 中 的 rain_demo.py 文件 。 











import numpy as np 
import librain 


rain data = np.load('rain.npy') 

print("Boost", librain.sum rain(rain data.astype(int).tolist(), 
len(rain data))) 

rain data = .1 * rain data 

rain data[rain data < 0] = .025 

print("Numpy", rain data.sum()) 





利用 本 书 代码 包 中 的 Makefile 文件 ， 可 以 实现 这 个 开发 过 程 的 自动 化 。 





CC = g++ 
PYLIBPATH = $(shell python3-config --exec-prefix)/lib 
IB = -LS$(PYLIBPATH) $(shell python3-config --libs) - 





L/usr/local/Cellar/boost/1.63.0/lib -L/usr/local/Cellar/boostpython/ 
1.63.0/1ib -lboost python3 

OPTS = $(shell python3-config --include) -02 - 
I/usr/local/Cellar/boost/1.63.0/include 











default: librain.so 
Gpython3 ./rain demo.py 


librain.so: rain.o 
$(CC) $ (LIB) -Wl,-rpath,$ (PYLIBPATH) -shared $< -o $Q 


rain.o: boost rain.cpp Makefile 
$(CC) $(OPTS) -c $< -o $8 


clean: 
rm.-—rf oso 0 


.PHONY: default clean 


在 命令 行 中 运行 以 下 命令 。 

















11. 





11.7. 通过 f2py 使 用 Fortra 


$ make clean;make 


结果 如 下 。 


Boost 85291.54999999328 
Numpy 85291.55 


7 


Fortran 源 自 
语言 , 通常 用 于 科学 计算 。 它 发 源 于 20 
90. Fortran 95, Fortran 2003 以 及 Fortran 
wiki/Fortran X [B 
对 于 下 面 的 例子 来 说 , 我 们 需要 安 
Fortran 编译 入 


时 ，NumPy 的 £2py 模块 可 以 为 我 们 充当 Fortran 与 Python 之 间 的 编程 接口 。 如 果 已 经 


同 


n 





通过 f2py 使 用 Fortran 代码 








世纪 50 年 代 , 随后 的 新 版 本 包括 Fortran 


























, 以 了 解 更 多 详 
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于 “公式 翻译 ”(Formula Translation System) 的 缩写 ， 是 一 种 成 熟 的 编程 


77、 Fortran 


2008, 感 兴趣 的 读者 可 以 参考 http://en.wikipedia.org/ 




















情 。 它 的 每 一 个 新 


装 一 个 Fortran Z 









































口 





EF, 读者 可 以 





自行 下 载 。 





版 本 都 添加 了 新 的 特性 和 新 的 多 
i 译 程序 。 编译 程序 gfortran 是 一 个 GNU 


i 程 范式 。 















































安装 好 了 Fortran 编译 程序 ， 那 么 就 可 以 借助 这 个 模块 ， 从 Fortran 程序 代码 来 创建 共享 程序 库 







































































列子 类 似 。 好 了 ， 


了 。 这 里 ， 我 们 将 编写 一 个 Fortran 子 例 程 ， 来 计算 降雨 量 之 和 ， 这 与 前 面 的 
现在 先 来 定义 子 例 程 并 把 它 存 放 到 一 个 Python 字符 串 中 。 然 后 ， 调 用 fR2py.compile0 KZ MA 


Fortran 代码 生成 一 个 3 

















共享 程序 库 。 完 整 代码 请 参考 本 书 代码 包 中 的 fort_src.py 文件 


from numpy impor 


fsource 











t f2py 


subroutine sumarray(A, N) 



































REAL, DIMENSION (N) tox 

INTEGER :: N 

RES = 0.1 * SUM(A, MASK = A .GT. 0) 
RES2 = -0.025 * SUM(A, MASK = A .LT. 0) 
print*, RES + RES2 

end 


f2py.compile(fsource,modulename-'fort sum',verbose-0) 





使 用 以 下 命令 执行 文件 来 





生成 该 模块 。 





$ Python3 fort src.py 











调用 这 个 子 例 程 的 完整 代码 请 参考 本 书 代 码 包 中 的 fort demo.py 文件 。 


o 


CN ME o LU OC[O[Óc—^«— 


import fort sum 

import numpy as np 

rain = np.load('rain.npy') 

fort sum.sumarray(rain, len(rain)) 
rain = .1 * rain 

rain[rain < 0] = .025 
print("Numpy", rain.sum()) 








使 用 以 下 命令 执行 文件 将 得 到 以 下 输出 。 


$ Python3 fort demo.py 








下 面 是 Fortran 代码 和 NumPy 代码 生成 的 结果 , 如 果 忽 略 Fortran 子 例 程 计算 结果 的 最 
后 两 位 小 数 ， 结 果 是 一 致 的 。 


85291.5547 
Numpy 85291.55 





11.8 PythonAnywhere 云 








u 


PythonAnywhere 是 一 个 用 于 Python 开发 的 云 服 务 。PythonAnywhere 的 接口 是 完全 基 
于 Web 的 ， 同 时 还 能 够 模拟 Bash. Python 和 IPython 控制 台 界 面 。PythonAnywhere 环境 中 
已 经 安装 了 许多 Python 程序 库 。 

当然 ， 这 些 版 本 与 目前 最 新 的 稳定 版 本 相 比 ， 多 少 还 有 些 滞后 。 笔 者 写作 本 书 时 ， 从 
PythonAnywhere 的 Bash 控制 台 安 装 Python 软件 可 能 会 遇 到 一 些 问题 ， 所 以 我 们 不 推荐 这 
种 安装 方式 。 当 您 首次 访问 PythonAnywhere 的 网 站 时 ， 将 看 到 的 屏幕 如 图 11-2 所 示 ， 从 
这 里 就 可 以 登录 到 PythonAnywhere 环境 。 




























































































@ Secure https://www.pythonanywhere.com/login/ 个 = en] 


Sr 
"PI pythonanywhere Send feedback Forums Help Blog Pricing & signup Log in 


Log in 
No login? Sign up here! 


Forgotten password? 























WR] 
— 
- 
1 
N 


11.8 PythonAnywhere 云 237 














提交 登录 名 和 密码 后 ， 将 看 到 如 图 11-3 所 示 的 Web 应 用 程序 。 





Œ | & Secure https://www.pythonanywhere.com/user/armandoucf/consoles/ ? * CE Fe A E ka on 
Sb 
SO pythonanyw here Send feedback Forums Help Blog Dashboard Account Logout 


Consoles Files Web Schedule Databases 


CPU Usage 


Start a new console: 0% used: 0.00s of 


Python: 3.5/3.4/3.3/2.7 IPython: 3.5/3.4/3.3/2.7 PyPy: 2.7 100s 
Other: Bash | MySQL Resets in 3 hours, 
Custom: © 22 minutes 

(more info) 


Your consoles: 
You have no consoles. Click a link above to start one. 


Start a console using the links above. If you're not sure which one you 
want, we recommend IPython 3.5. These are real consoles running on 
PythonAnywhere servers, with lots of batteries included. Bash shells give 
access to a full GNU/Linux environment including vim and emacs. Consoles 
can be shared with other users, have Internet access (filtered for free users, 
full access for paying customers) and do not lose state if you close your 
browser window. 


The Files tab provides basic file management, scripts can be run and text 
files can be edited. 


Inside the Web tab you can configure web apps, which will be served at 
http://armandoucf.pythonanywhere.com/ — or, if you have a paid plan, at 
any other domain you own. Try using one of the built in web frameworks like 
Django, Flask, or web2py to get started quickly. If you're more adventurous, 
you can use any web framework that supports the WSGI protocol. 

The Schedule tab configures scripts, like scrapers or notifications, that need 
to be run periodically. 

The Databases tab lets you set up access to MySQL or Postgres 
databases. MySQL is available for all accounts, free or paid, while Postgres 
is a paid feature. 


Consoles shared with you 
No-one has shared any consoles with you :-( 


Running processes 


© Fetch process list 











图 11-3 


我 们 建议 读者 直接 上 传 Python 源 文件 ， 而 不 要 通过 PythonAnywhere 工作 平台 安装 ， 这 是 因为 
它 不 如 本 地 程序 反应 得 快 。 我 们 点 击 Web 应 用 上 的 “Files” 选 项 来 上 传 文件 ， 如 图 11-4 所 示 。 请 


EIE bn demo.py 文件 。 





























@ Secure https://www.pythonanywhere.com/user/armandoucf/files/home/armandoucf 会 »m»9T*6a8a-10* e a 





+ 
SO pythonanywhere Sendfeedback Forums Help Blog Dashboard Account Logout 


Consoles Files Web Schedule Databases 


/ home / 写 armandoucf 国 Open Bash console here 1% full (2.8 MB of your 512.0 MB quota) 
Directories Files 
Enter new directory nam« | New directory Enter new file name, eg hello.py New file 





-cache/ 
‘ipython/ 
Jocal/ 
rtualenvs/ pythonstartup.py 
vimrc 
li README.txt 
li bn demo.py 
© Upload a file 














图 11-4 











238 第 11 章 





我 们 执行 该 程序 , 单 击 bn_demp.py 文件 


Python 生态 系统 的 外 部 环境 和 云 计 算 





m- 


击 如 图 11-5 所 示 屏 幕 右 上 角 








， 然 后 





























/ home 


1 





09 4 
bel pythonangwhere 


- def time(code, setup, n): 


~ if name | == 


ESG A QA o) 


Â Secure https://www.pythonanywhere.comj/use les/ho: | i 


Sendíeedback Forums Help Blog Dashboard Account Logout 
Keyboard shortcuts: | Normal $|| d? Share | Mseve | Save as EM 
ümport bottleneck as bn 


import numpy as np x 
import timeit 


/ armandouct / bn_demo.py 


setup = '"' 

import numpy as np 

import bottleneck as bn 

from scipy.stats import rankdata 


np. random. seed(42) 
a = np.random. randn(30) 


return timeit.Timer(code, setup-setup).repeat(3, n) 


' main: 
n = 10**3 

print(n, "pass", max(time("pass", "", m) 

printCn, "min np.medion", minCtime('np.median(a)', setup, n))) 
printCn, "min bn.median", minCtime('bn.median(a)', setup, n))) 
a = np.arange(7) 

printC"Median diff", np.median(a) - bn.median(a)) 


printCn, "min scipy.stats.rankdata", min(time('rankdata(a)', setup, n))) 
printCn, "min bn.rankdata", min(time('bn.rankdata(a)', setup, n))) 

















图 11-5 


看 到 如 图 11-6 所 示 的 输出 。 





























EIE 


小 结 


11.9 


scipy K 26 
min bn. ETE e. 001692 5800591 


3897574842 

















的 “Run” 按 钮 。 


在 本 章 中 ， 我 们 考察 了 Python 的 外 部 环境 。 





流行 的 程序 设计 语言 UR. C. Java 和 Fortran 等 。 


在 Python 生态 系统 外 部 ， 还 有 许多 非常 
这 里 ， 我 们 考察 了 许多 个 程序 库 ， 连 






































接 Python 和 其 他 语言 时 ， 它 们 都 可 以 用 来 起 到 


胶合 作用 

















， 如 用 来 连接 R 语言 代码 的 rpy2 














库 ， 











连接 C 语 言 代 码 的 Boost 和 SWIG 库 , 连接 Java 语 言 代码 的 JPype 库 以 及 用 来 连接 Fortran 


























语言 代码 的 亿 py 库 。 云 计算 的 目的 主要 是 将 计算 能 力作 为 一 种 公用 设施 并 通过 互联 网 提供 














给 大 众 。 此 外 ， 
PythonAnywhere, 


Ach 


E 


POR 





12 章 我 们 将 把 注意 力 放 在 性 能 的 提高 方面 。 
分 Python 代码 等 代码 优化 手段 ， 可 以 极 大 地 提高 Python 代码 的 运行 速度 。 此 外 ， 


本 章 还 简 
它 是 一 种 专门 为 Python 提供 的 云 计 算 服 务 。 


一 般 来 说 ， 借 助 
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我 们 还 会 讨论 各 种 性 能 分 析 CProfling) 工具 和 并 发 性 应 用 程序 接口 。 

















前 要 概述 了 当前 针对 Python 的 各 种 云 计算 服务 ， 其 


并 行 化 或 者 利 


中 包括 




















1Ci8 


一 个 话题 。 这 也 是 我 人 
析 (Profling〉 作 为 关键 技术 ， 介 


介绍 











O 120 


UDduguiulliLiÓiuutli 


“过 早 优 化 是 祸根 。” 











在 实际 的 应 用 中 ， 
重要 的 。 此 外 ， 性 能 与 应 用 程序 的 














一 一 Donald Knuth， 著 名 的 计算 机 科学 家 和 数学 家 








Lr. 


性 能 与 功能 特性 、 健 壮 性 、 




















相应 的 性 能 优化 框 





























可 维护 性 、 可 测 性 以 及 可 用 性 等 是 一 样 











可 扩展 性 成 正比 。 因 此 ， 性 能 是 本 书 中 一 个 不 可 或 缺 的 














如 何 改善 软件 














EX. 


本 章 将 讨论 以 下 主题 。 





代码 的 性 能 分 析 (Profling) 


安装 Cython 
调用 C 代码 








通过 Joblib 提高 


利用 multiprocessing 创建 进程 池 














for 循环 的 3 


发 性 





比较 Bottleneck 函数 与 NumPy 函数 


通过 Jug 实现 


MapReduce 


安装 MPI for Python 


IPython Parallel 





] 把 性 能 这 个 主题 放 到 最 后 来 讲 的 原 
能 。 对 于 分 布 式 多 核 系 统 ， 我 们 也 会 


的 性 能 





因 之 一 。 在 这 里 ， 我 们 将 性 能 分 
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12.1 代码 的 性 能 分 析 


所 谓 性 能 分 析 ， 就 是 以 收集 程序 运行 时 的 信息 为 手段 ， 找 出 代码 中 哪些 部 分 较 慢 或 
者 占用 内 存 或 处 理 器 资源 较 多 ， 以 便 进一步 对 这 些 代 码 做 出 相应 的 调整 。 这 里 ， 我 们 将 
以 第 9 章 中 的 情绪 分 析 代 码 为 蓝本 ， 稍 作 修 改 后， 以 此 为 例 进 行 性 能 分 析 。 对 于 这 个 程 
序 ， 我 们 将 按照 多 进程 编程 准则 对 其 进行 重 构 。 本 章 后 面 的 部 分 将 对 多 进程 技术 展开 进 


一 步 讨论 。 


此 外 ， 我 们 会 对 停 用 词 的 过 滤 做 进一步 简化 。 最 后 ， 我 们 还 会 在 不 降低 准确 性 的 前 提 
下 ， 来 进一步 减少 作为 特征 的 单词 。 对 于 最 后 这 一 点 ， 效 果 最 显著 。 原 始 代码 的 运行 时 间 
大 约 需 要 20s。 而 新 的 代码 ， 其 速度 将 会 有 明显 提升 ， 同 时 我 们 将 它 作 为 本 章 的 比较 基准 。 
某 些 代 码 修改 与 性 能 分 析 有 关 ， 这 将 在 本 节 后 面 讲 解 。 下 列 代码 摘自 本 书 代 码 包 中 的 
prof demo.py 文件 。 
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import random 

from nltk.corpus import movie reviews 
from nltk.corpus import stopwords 
from nltk import FreqDist 

from nltk import NaiveBayesClassifier 
from nltk.classify import accuracy 


import builtins 


f Define profile function so the profile decorator 
# does not return error when code is not profiled 
try: 

profile = builtins.profile 





except AttributeError: 
def Profile (func) : 
return func 


Gprofile 
def label docs(): 
docs = [(list(movie reviews.words(fid)), cat) 


for cat in movie reviews.categories() 








for fid in movie reviews.fileids(cat)] 
random.seed(42) 
random.shuffle(docs) 


return docs 
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Gprofile 
def isStopWord (word): 

return word in sw or len(word) -- 1 
Gprofile 


def filter corpus(): 
review words = movie reviews.words() 
print ("# Review Words", len(review words)) 
res = [w.lower() for w in review words if not isStopWord(w.lower())] 
print ("# After filter", len(res)) 





return res 


Gprofile 
def select word features (corpus): 
words = FreqDist(corpus) 
N = int(.02 * len(words.keys())) 
return list (words.keys()) [:N] 
Gprofile 
def doc features (doc): 
doc words = FreqDist(w for w in doc if not isStopWord (w)) 
features = {} 


for word in word features: 
features['count ($s)' $ word] = (doc words.get(word, 0)) 
return features 


Gprofile 
def make features (docs): 
return [(doc features (d), c) for (d,c) in docs] 





Gprofile 
def split data(sets): 
return sets[200:], sets[:200] 


if name == " main ": 
labeled docs = label docs() 





Sw — set(stopwords.words('english')) 

filtered = filter corpus() 

word features = select word features (filtered) 
featuresets = make features(labeled docs) 
train set, test set - split data(featuresets) 

















classifier = NaiveBayesClassifier.train(train set) 
print("Accuracy", accuracy(classifier, test set)) 
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测量 运行 时 间 时 ， 运 行 的 i 
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print(classifier.show most informative features()) 


print(classifier.show most informative features()) 

















以 需要 通过 time 命令 测量 3 次 运行 时 间 


面 都 提供 了 time 命令 ， 使 用 方法 如 下 。 
























































$ time Python3 prof demo.py 


以 最 短 的 时 间 为 准 。 各 


程 越 少 越 好 。 但 是 ， 我 们 不 能 保证 后 台 没有 





















































进程 运行 ， 所 


操作 系统 和 Cygwin 下 





这 样 ， 我 们 会 得 到 一 个 real 类 型 的 运行 时 间 ， 这 种 测量 方法 采用 的 是 时 钟 时 间 ; 对 于 
user 和 sys 类 型 的 运行 时 间 ， 则 是 通过 CPU 时 间 测 量 的 程序 运行 时 间 。 实 际 上 ，sys 时 间 





就 是 在 内 核 中 耗费 的 时 间 。 笔 者 的 
























































电脑 上 测 得 的 运行 时 间 见 表 12-1， 其 中 最 小 值 用 括号 标 











示 了 出 来 。 
表 12-1 
时 间 类 型 第 一 轮 第 二 轮 第 三 轮 
real 11.521 10.808 (10.416) 
user 9.758 9.826 (9.444) 
Sys 0.965 0.643 (0.620) 





























下 面 利用 Python 内 置 的 分 析 工 具 来 分 析 代 码 ， 具 体 如 下 。 











$ python3 -m cProfile -o /tmp/stat.prof prof demo.py 





























这 里 ，-o 选项 用 来 指定 输 








$ pip3 install gprof2dot 





现在 创建 一 个 PNG 格式 的 可 视 化 











图 形 ， 命 令 如 下 。 





文件 。 此 外 ， 利 用 PyPi 的 程序 包 gprof2， 可 以 实现 分 析 工 


$ gprof2dot -f pstats /tmp/stat.prof |dot -Tpng -o /tmp/cprof.png 


提示 


qp 如 果 出 现 错误 信息 dot: command not found, KAR 
们 尚未 安装 Graphviz。 
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完整 的 图 像 很 大 ， 图 12-1 只 展示 其 中 一 部 分 。 





prof demo:38:select word features 
0.72% 
(0.01%) 
1x 


7:0:«method 'add' of 'set' objects» | | prof demo:54:«listcomp» api:69:classify many 
1.67% Uu 4.30% 
67%) 
2858886x 


prof_demo:16:label_docs 
25.99% 
(0.00 
1x 


probability:90:_init ~:0:<method 'get' of 'dict' object: naivebayes:87:classify 
6.56% 1.219 4.309 
(0.02%) 
3584x 


init_ :516:_ 


. init probability:429:logprob 
2.34% 
(1.01%) 
316800x 


prof demo:46:« 
4.52 
(1.90%) 
709128x 





y / 
^ 3.146% [15.429 




















查询 分 析 工 具 输 出 结果 的 方法 如 下 。 
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$ Python3 -m pstats /tmp/stat.prof 





















































































































































ix H 3 + 
利用 这 个 命令 ， 我 们 可 以 把 性 能 分 析 数 据 输 入 到 浏览 器 中 。 下 面 我 们 删除 输出 结果 中 
的 文件 名 ， 然 后 对 运行 时 间 进 行 排序 并 输出 前 10 个 数据 。 
/tmp/stat.prof$ strip 
/tmp/stat.prof$ sort time 
/tmp/stat.prof$ stats 10 
最 终结 果 如 图 12-2 所 示 。 
fluid:ch-12 armando$ python3 -m pstats /tmp/stat.prof 
Welcome to the profile statistics browser. 
/tmp/stat.prof*& strip 
/tmp/stat.prof& sort time 
/tmp/stat.prof*& stats 10 
Sun Feb 5 18:24:49 2017 /tmp/stat.prof 
30643998 function calls (30123080 primitive calls) in 15.502 seconds 
Ordered by: internal time 
List reduced from 3823 to 10 due to restriction «10» 
ncalls tottime percall cumtime percall filename:lineno(function) 
319962 2.397 0.000 2.397 0.000 (method 'findall' of ' sre.SRE Pattern' objects) 
z 1.251 1.251 1.580 1.580 naivebayes.py:181(train) 
319960 1.056 0.000 2.748 0.000 data.py:1114(readline) 
6343280 0.847 0.000 7.338 0.000 util.py:261(iterate from) 
T 0.803 0.803 3.678 3.678 prof demo.py:34(«listcomp») 
3167640 0.741 0.000 0.896 0.000 prof demo.py:26(isStopWord) 
2000 0.692 0.000 1.719 0.001 prof demo.py:44(doc, features) 
3167642 0.628 0.000 4.361 0.000 util.py:388(iterate from) 
371223 0.393 0.000 0.898 0.000 data.py:1353(, read) 
3885294/3376152 0.359 0.000 2.696 0.000 (built-in method builtins.len) 
/tmp/stat.prof* [| 
图 12-2 
ER | ZX 一 Ax o 
表 12-2 对 各 个 标题 进行 了 简要 说 明 。 
表 12-2 
标题 说 明 
ncalls 调用 次 数 
tottime 某 个 函数 的 总 耗 时 〈 不 包括 调用 子 函数 所 耗 时 间 ) 
percall 等 于 tottime/ncalls 
cumtime 表示 该 函数 及 其 所 有 子 函数 的 调用 运行 的 时 间 ， 即 函数 开始 调用 到 返回 所 经 历 
的 时 间 。 这 个 数值 非常 准确 ， 即 便 递 归 函 数 也 不 例外 
percall GEZA) | 即 函数 运行 一 次 的 平均 时 间 ， 等 于 cumtime/ncalls 

















使 用 以 下 命令 可 以 退出 文件 浏览 器 : 


/tmp/stat.prof$ quit 








安装 和 运行 该 分 析 工 具 的 命令 如 下 。 


$ pip3 install line profiler 
$ kernprof -1 -v prof demo.py 








因为 详尽 的 报告 过 于 元 长 ， 所 以 这 里 只 给 出 每 个 函数 的 摘要 信息 。 当 然 ， 这 当中 有 音 








分 重合 内 容 。 











Function: label docs at line 9 Total time: 6.19904 
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S 


Function: isStopWord at line 19 Total time: 2.16542 s 


File: prof demo.py Function: filter corpus at line 


23 


Function: select word features at line 32 Total time: 4.05266 s 
Function: doc features at line 38 Total time: 12.5919 s 
Function: make features at line 46 Total time: 14.566 s 
Function: split data at line 50 Total time: 3.6e-05 s 


12.2 安装 Cython 


Cython 程序 语言 实际 上 充当 了 Python 和 C/C++ 之 间 的 胶水 。 利 用 Cython T 
用 Python 代码 生成 C 代码 ， 然 后 将 C 代码 编译 成 接近 于 机 器 语言 的 二 进入 
软件 包 提 供 了 许多 实用 程序 , 这 些 程序 都 是 通过 将 Python 的 toolz f 















































以 下 命令 可 以 用 来 安装 cython 和 cytoolz。 





$ pip3 install cython cytoolz 



















































































FE Cython 化 


H 


AN 





帮助 我 们 测量 时 间 。 下 面 通过 它 来 对 不 同 的 函数 进行 测度 。 我 们 定义 下 面 的 函数 ， 
的 参数 为 一 段 代码 、 一 个 函数 调用 以 及 该 段 代码 的 运行 次 数 ， 具 体 如 下 。 











def time (code, n): 








times = min(timeit.Timer(code, setup-setup).repeat(3, n)) 


return round(1000* np.array(times)/n, 3) 





我 们 预定 义 了 一 个 设置 控制 字符 串 ， 其 中 包含 了 所 需 的 代码 。 下 列 代码 摘自 


























包 中 的 timeit.py 文件 ， 需 要 在 本 地 机 器 上 使 用 cython module 3 

















行 编译 。 


本 


村 


, 

















可 以 


BM. cytoolz 


42H 


到 的 。 


进行 后 续 处 理 前 ， 先 来 看 看 经 过 Cython 编译 处 理 后 的 效果 。Python 的 timeit 模块 可 以 


n 有 
已 需要 





BAUR 
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import timeit 
import numpy as np 


setup - 
import nltk 
import cython module as cm 








import collections 

from nltk.corpus import stopwords 
from nltk.corpus import movie reviews 
from nltk.corpus import names 





import string 
import pandas as pd 
import cytoolz 








Sw — set(stopwords.words('english')) 

punctuation = set(string.punctuation) 

all names = set([name.lower() for name in names.words()]) 
txt = movie reviews.words (movie reviews.fileids()[0]) 





def isStopWord(w): 
return w in sw or w in punctuation 


def isStopWord2 (w): 
return w in sw or w in punctuation or not w.isalpha() 


def isStopWord3 (w): 
return w in sw or len(w) -- 1 or not w.isalpha() or w in all names 








def isStopWordA4 (w): 
return w in sw or len(w) == 1 





def freq dict (words): 
dd = collections.defaultdict(int) 


for word in words: 
dd[word] += 1 


return dd 


def zero init(): 
features = {} 


for word in set (txt): 
features['count ($s)' % word] = (0) 


def zero_init2(): 
features = {} 
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for word in set(txt): 
features[word] - (0) 
keys = list(set(txt)) 
def zero init3(): 
features = dict.fromkeys(keys, 0) 
zero dict = dict.fromkeys (keys, 0) 
def dict copy(): 
features - zero dict.copy() 
EA | 
def time(code, n): 
times = min(timeit.Timer(code, setup-setup).repeat(3, n)) 
return round(1000* np.array(times)/n, 3) 
if name == ' main ': 
print("Best of 3 times per loop in milliseconds") 
n = 10 
print("zero init ", time("zero init()", n)) 
print("zero init2", time("zero init2()", n)) 
print("zero init3", time("zero init3()", n)) 
print("dict copy ", time("dict copy()", n)) 
print ("Nn") 
n = 10**2 
print("isStopWord ", time('[w.lower() for w in txt if not 
isStopWord(w.lower())]', n)) 
print("isStopWord2", time('[w.lower() for w in txt if not 
isStopWord2 (w.lower())]', n)) 
print("isStopWord3", time('[w.lower() for w in txt if not 
isStopWord3 (w.lower())]', n)) 
print("isStopWord4", time('[w.lower() for w in txt if not 
isStopWord4 (w.lower())]', n)) 
print("Cythonized isStopWord", time('[w.lower() for w in txt if not 
cm.isStopWord(w.lower())]', n)) 
print("Cythonized filter sw()", time('cm.filter sw(txt)', n)) 
print ("Nn") 
print("FreqDist", time("nltk.FreqDist(txt)", n)) 
print("Default dict", time('freq dict(txt)', n)) 
print("Counter", time('collections.Counter(txt)', n)) 
print("Series", time('pd.Series(txt).value counts()', n)) 
print("Cytoolz", time('cytoolz.frequencies(txt)', n)) 
print("Cythonized freq dict", time('cm.freq dict(txt)', n)) 
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以 上 代码 中 有 多 个 不 同 版 本 的 isStopwordO 函 数 ， 下 面 是 这 些 函 数 的 运行 时 间 ， 这 里 以 


毫秒 (milliseconds) 为 单位 。 

















isStopWord 0.843 
isStopWord2 0.902 
isStopWord3 0.963 
isStopWord4 0.869 
Cythonized isStopWord 0.924 
Cythonized filter sw() 0.887 






































为 了 进行 比较 ， 我 们 还 要 对 pass 语句 的 运行 时 间 进 行 计 时 。 这 里 ，Cython 编译 后 的 
StopWord0 函数 是 基于 过 滤 最 严格 的 isStopWord3( 函数 。 如 果 考 察 prof demo.py 中 的 
doc features0 函 数 ， 就 会 发 现 我 们 并 没有 仔细 检查 每 个 特征 单词 。 相 反 ， 我 们 只 对 文档 中 的 单 
词 和 被 选 为 特征 的 单词 感 兴趣 。 因 此 ， 其 他 单词 计数 可 以 放心 置 零 。 事实 上 ， 如 果 我 们 把 全 部 
的 值 初始 化 为 0， 然 后 复制 这 个 字典 ， 那 最 好 不 过 了 。 下 面 这 些 函 数 的 相应 执行 时 间 如 下 。 


























































































































zero init 0.61 
zero init2 0.555 
zero init3 0.017 
dict copy 0.011 
































另外 一 种 改进 性 能 的 方法 是 ， 使 用 Python 内 置 的 defaultdict 类 ， 而 非 NLTK 提供 的 
FreqDist 类 。 相 应 程序 运行 时 间 如 下 。 




















FreqDist 2.206 

Default dict 0.674 

Counter 0.79 

Series 7.006 

Cytoolz 0.542 

Cythonized freq dict 0.616 























就 像 我 们 看 到 的 那样 ，Cython 编译 后 的 版 本 始终 是 要 快 一 些 ， 尽 管 有 时 候 不 是 快 很 多 。 


12.3 调用 C 代码 

















我 们 可 以 从 Cython 调用 C 函数 。C 语言 的 字符 串 函 数 strlen0 相 当 于 Python 语言 中 的 
len0 函 数 。 当 从 一 个 Cython 的 .pyx 文件 中 调用 这 个 C 函数 时 ， 需 要 将 其 导入 ， 代 码 如 下 。 


























from libc.string cimport strlen 




















这 样 ， 我 们 就 可 以 在 .pyx 文件 的 其 他 地 方 来 调用 这 个 stlen0 函 数 了 。 而 这 个 .pyx 文件 可 





以 随意 包含 任何 的 Python 代码 。 下 面 的 代码 摘自 本 书 代码 包 中 的 cython module.pyx 文件 。 
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T 




















from collections import defaultdict 
from nltk.corpus import stopwords 
from nltk.corpus import names 

from libc.string cimport strlen 


Sw — set(stopwords.words('english')) 
all names = set([name.lower() for name in names.words()]) 





def isStopWord (w): 

py byte string = w.encode('UTF-8') 

cdef char* c string = py byte string 

truth = (w in sw) or (w in all names) or (not w.isalpha()) or 
(strlen(c string) -- 1) 

return truth 


def filter sw (words): 
return [w.lower() for w in words if not isStopWord(w.lower())] 


def freq dict (words): 
dd = defaultdict(int) 


for word in words: 
dd[word] += 1 


return dd 


编译 这 段 代码 ， 我 们 需要 一 个 包含 以 下 内 容 的 setup.py 文件 。 

















from distutils.core import setup 
from Cython.Build import cythonize 


Setup ( 
ext modules = cythonize("cython module.pyx") 








编译 程序 代码 的 命令 如 下 。 














$ Python3 setup.py build ext --inplace 











以 下 输出 显示 了 cython module 扩展 的 构建 信息 。 


$python3 setup.py build ext --inplace 
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running build ext 

building 'cython module' extension 

creating build 

creating build/temp.macosx-10.12-x86 64-3.6 

clang -Wno-unused-result -Wsign-compare -Wunreachable-code -fno-common - 
dynamic -DNDEBUG -g -fwrapv -03 -Wall -Wstrict-prototypes - 
I/usr/local/include -I/usr/local/opt/openssl/include - 
I/usr/local/opt/sqlite/include - 
I/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/i 
nclude/python3.6m -c cython module.c -o build/temp.macosx-10.12- 

x86 64-3.6/cython module.o 

clang -bundle -undefined dynamic lookup build/temp.macosx-10.12- 

x86 64-3.6/cython module.o -L/usr/local/lib -L/usr/local/opt/openssl/lib - 
L/usr/local/opt/sqlite/lib -o 
/Users/armando/gdrive/projects/bitbucket/pubs/2016-pda-e2- 
packt/chapters/ch-12/cython module.cpython-36m-darwin.so 





如 今 ， 我 们 可 以 修改 这 个 情感 分 析 程 序 ， 让 它 来 调用 Cython 函数 。 此 外 ， 我 们 还 可 以 
根据 前 面 曾 经 介绍 的 方法 来 改善 这 个 代码 的 性 能 。 因 为 一 些 函 数 会 重复 使 用 ， 所 以 我 们 将 
这 些 函 数 抽取 出 来 并 集中 到 本 书 代 码 包 中 的 core.py 文件 中 。 下面 的 代码 摘自 本 书 代 码 包 中 
的 cython demo.py 文件 (这 些 代码 需要 本 地 机 器 能 够 支持 cython module). 
































n 



































from nltk.corpus import movie reviews 





from nltk import NaiveBayesClassifier 
from nltk.classify import accuracy 
import cython module as cm 

import cytoolz 

from core import label docs 

from core import filter corpus 

from core import split data 

def select word features (corpus): 





words = cytoolz.frequencies (filtered) 
Sorted words = sorted(words, key-words.get) 
N = int(.02 * len(sorted words)) 


return sorted words[-N:] 


def match(a, b): 
return set(a.keys()).intersection (b) 





def doc features (doc): 
doc words = cytoolz.frequencies(cm.filter sw(doc)) 


# initialize to 0 
features = zero features.copy() 
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word matches = match(doc words, word features) 


for word in word matches: 
features[word] = (doc words[word]) 


return features 


def make features (docs): 























return [(doc features(d), c) for (d,c) in docs] 
if name == " main ": 

labeled docs = label docs() 

filtered - filter corpus() 

word features = select word features (filtered) 

zero features = dict.fromkeys (word features, 0) 

featuresets = make features(labeled docs) 

train set, test set - split data(featuresets) 





classifier = NaiveBayesClassifier.train(train set) 
print("Accuracy", accuracy(classifier, test set)) 
print(classifier.show most informative features()) 

















我 们 使 用 time 命令 执行 代码 。 





$ time Python3 cython demo.py 


























表 12-3 是 对 time 命令 运行 结果 的 总 结 。 注 意 ， 括 号 中 的 值 是 最 小 值 。 


表 12-3 











时 间 类 型 第 一 轮 第 二 轮 第 三 轮 
real (9.639) 9.817 9.912 
user (9.604) 9.661 9.683 
sys (0.404) 0.424 0.451 


与 以 前 的 代码 的 执行 时 间 相 比 ， 我们 可 以 看 到 性 能 














12.2 节 中 转载 过 来 的 ， 以 便于 进行 比较 。 











了 明显 的 提升 。 时 间 表 12-4 是 从 




















表 12-4 
时 间 类 型 第 一 轮 第 二 轮 第 三 轮 
real 11.521 10.808 (10.416) 
user 9.758 9.826 (9.444) 
Sys 0.965 0.643 (0.620) 
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12.4 利用 multiprocessing 创建 进程 池 











multiprocessing 是 Python 的 一 个 标准 模块 ， 可 以 用 于 多 处 理 器 机 器 。mnultiprocessing 
通过 创建 多 个 进程 ， 成 功 解决 了 全 局 解释 器 锁 (the Global Interpreter Lock, GIL) 问题 。 
































提示 
QU GIL 会 锁定 Python 的 字 节 码 ， 导 致 只 有 一 个 线程 可 以 
访问 这 些 字 节 码 。 











multiprocessing 支持 进程 池 、 队 列 和 管道 技术 。 进 程 池 实际 上 就 是 可 以 并 行 执行 一 个 
函数 的 一 组 系统 进程 。 队 列 是 一 些 数据 结构 ， 通 常用 于 存储 任务 。 管 道 用 来 连接 不 同 的 进 
程 ， 而 且 连 接 方式 为 一 个 进程 的 输出 作为 另 一 个 进程 的 输入 。 































































































提示 

Cp Python 的 Windows 平台 版 本 没有 实现 os.fork() Až, 
因此 我 们 务必 确保 导入 该 函数 并 且 将 def 语句 块 定义 
在 让 name =" main "语句 块 之 外 。 








下 面 创建 一 个 进程 池 并 注册 一 个 函数 ， 代 码 如 下 。 








p = mp.Pool (nprocs) 


























进程 池 有 一 个 map0 方 法 ， 我 们 可 以 看 成 是 Python 并 行 的 map0 函 数 。 




















p.map (simulate, [i for i in xrange(10, 50)]) 








模拟 微粒 的 一 维 运 动 ， 它 实际 上 进行 的 是 随机 游 走 ， 我 们 这 里 关心 的 是 微粒 终点 位 置 
的 均值 。 我 们 重复 这 个 模仿 实验 ， 每 次 具有 不 同 的 步 长 。 实 际 上 ， 计 算 本 身 并 不 重要 ， 重 
要 的 是 与 单个 进程 相 比 ， 多 个 进程 的 加 速效 果 如 何 , 我 们 将 通过 matplotlib 绘制 加 速 比 。 完 
整 的 代码 摘自 本 书 代 码 包 中 的 multiprocessing sim.py 文件 。 





















































from numpy.random import random integers 
from numpy.random import randn 

import numpy as np 

import timeit 
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import argparse 
import multiprocessing as mp 
import matplotlib.pyplot as plt 


def simulate(size): 
n0 


Speed = randn(10000) 


for i in range(1000): 
n=n + 1 
indices = random integers(0, len(speed)-1, size-size) 
x = (1 + speed[indices]).prod() 
delta = x - mean 





mean = mean + delta/n 
M2 = M2 + delta*(x - mean) 


return mean 


def serial(): 
start = timeit.default timer() 


for i in range(10, 50): 
simulate (i) 





nd = timeit.default_timer() - start 
print ("Serial time", end) 


return end 

def parallel (nprocs): 

start = timeit.default timer() 

p = mp.Pool (nprocs) 

print(nprocs, "Pool creation time", timeit.default timer() - start) 


p.map(simulate, [i for i in range(10, 50)]) 
p.close() 
p.join() 





nd = timeit.default timer() - start 
print(nprocs, "Parallel time", end) 





return end 
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ratios = [] 
baseline = serial() 


for i in range(1, mp.cpu count()): 


ratios.append (baseline/parallel (i)) 


plt.xlabel('£ processes") 
plt.ylabel('Serial/Parallel') 


plt.plot(np.arange(1, 
plt.grid(True) 
plt.show() 








mp.cpu count()), ratios) 


当 进 程 池 大 小 由 1 变 到 8 时 ， 加 速 比 的 变化 如 图 12-3 所 示 。 





























3 5 6 


4 
# 进程 









































图 12-3 




















I 加 速 比 的 最 大 可 能 值 。 进 程 的 数量 限 由 














阿 姆 达 尔 定律 (详情 请 访问 http:/en.wikipedia.org/wiki/Amdahl%27s law) 代表 了 处 理 器 
平行 运算 后 效率 提升 的 能 力 。 这 个 定律 可 以 用 来 预 涡 


























了 加 速 比 的 绝对 最 大 值 。 不 过 ， 图 12-3， 使 用 双 进 程 时 速度 并 没有 加 倍 ， 使 用 3 个 进程 时 速 























度 也 没有 比 原来 快 3 倍 , 但 是 可 以 接近 这 个 方向 。 任何 给 定 的 Python 代码 ， 总 会 有 些 部 分 是 
待 资源 被 释放 , 或 者 进行 的 计算 必须 串 行 完成 。 有 时， 











无 法 并 行 化 的 。 例如, 我们 可 能 需要 等 













































































我 们 还 必须 考虑 并 行 化 配置 和 进程 间 相 应 通信 带 来 的 开销 。 阿 姆 达尔 定律 指出 ， 加 速 比 的 倒 
数 、 进 程 数 量 的 倒数 和 代码 中 无 法 并 行 计算 部 分 所 占 的 比例 之 间 存 在 线性 关系 。 


12.5 通过 Joblib 提高 for 循环 的 并 发 性 
































Joblib 是 一 个 由 scikit-learn 的 了 











E 改 善 长 时 间 运 行 的 Python 





于 发 者 创建 的 Python Æ, S4 
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函数 的 性 能 。 实 际 上 ，Joblib 是 通过 在 幕后 使 用 多 进程 或 者 线程 技术 来 实现 高 速 缓存 和 并 

















行 化 从 而 达到 提升 性 能 的 目的 。 安 装 Joblib 的 方法 如 下 。 


$ pip3 install joblib 

















我 们 会 重新 使 用 前 面 的 示例 代码 ， 只 是 变更 parallel0 函 数 。 相 关 的 代码 摘自 本 书 代码 




















包 中 的 joblib demo.py 文件 。 


def parallel (nprocs) : 
start = timeit.default timer() 
Parallel(nprocs) (delayed(simulate) (i) for i in xrange(10, 


nd = timeit.default timer() - start 
print(nprocs, "Parallel time", end) 





return end 



































最 终结 果 如 图 12-4 所 示 注意 ， 实 际 的 处 理 器 数量 取决 于 我 们 的 硬件 )。 
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图 12-4 








12.6 比较 Bottleneck eZ E NumPy E ZW 








Bottleneck 是 受到 Numpy 和 Scipy 的 启发 而 创建 的 一 组 函数 ， 它 们 着 眼 于 高 性 能 ， 都 
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是 由 Cython 写成 的 。Bottleneck 为 数组 维 数 、 坐 标 轴 和 数据 类 型 的 每 种 当 





日 合 都 提供 了 单独 














的 Cython 函数 。 但 是 ， 这 并 不 表示 最 终 用 户 和 Bottleneck 的 限制 因素 决定 了 到 底 执行 哪 一 








个 Cython 函数 。 安 装 Bottleneck 的 命令 如 下 。 


$ pip3 install bottleneck 








下 面 对 numpy.median() ll SciPy.stats 的 执行 时 间 进 行 比 较 。 





























这 对 人 为 决定 是 否 使 用 Cython 函数 很 有 帮助 ， 尤 其 是 在 将 这 些 Cython 函数 用 于 紧密 
循环 (tight loop) 或 者 频繁 调用 的 函数 中 时 。 下 面 打印 Bottleneck 中 medianO0 函 数 的 名 称 ， 











代码 如 下 。 


import bottleneck as bn 
import numpy as np 
import timeit 

setup = ''! 


import numpy as np 








import bottleneck as bn 
from scipy.stats import rankdata 


np.random.seed (42) 
a = np.random.randn (30) 


def time (code, setup, n): 








return timeit.Timer(code, setup-setup).repeat(3, n) 





Lf name == ' main ': 
n = 10**3 
print(n, "pass", max(time("pass", "", n))) 


a = np.arange(7) 
print)"Median diff", np.median(a) - bn.median(a)) 


n))) 





print(n, "min bn.rankdata", min(time('bn.rankdata(a)', 


下 面 是 函数 名 和 相应 的 运行 时 间 。 





$ Python3 bn demo.py 
1000 pass 7.228925824165344e-06 
1000 min np.median 0.019842895912006497 


print(n, "min np.median", min(time('np.median(a)', setup, n))) 
print(n, "min bn.median", min(time('bn.median(a)', setup, n))) 


print(n, "min scipy.stats.rankdata", min(time('rankdata(a)', setup, 


setup, n))) 
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1000 min bn.median 0.0003261091187596321 

Median diff 0.0 

1000 min scipy.stats.rankdata 0.04070987505838275 
1000 min bn.rankdata 0.0011222949251532555 














显然 ，Bottleneck 快 极 了 。 不 过 ，Bottleneck 提供 的 函数 还 不 多 。 表 12-5 给 出 了 已 实现 
的 函数 。 


表 12-5 


种 类 函数 








NumPy/SciPy | median. nanmedian. rankdata. ss. nansum. nanmin, nanmax、 nanmean, 


nanstd. nanargmin 和 nanargmax 











PR nanrankdata. nanvar. partsort. argpartsort. replace. nn. anynan 
和 allnan 

yE, >h F ] 

滑动 窗 move sum.move nansum.move mean.move nanmean.move median.move std. 




















move nanstd. move min. move nanmin. move max 和 move nanmax 
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Jug 是 一 个 分 布 式 计算 框架 ， 它 以 任务 作为 并 行 化 的 主要 单位 。 作 为 后 端 程 序 ，Jug 要 
到 文件 系统 或 者 Redis 服务 器 。Redis 服务 器 已 经 在 第 8 章 中 介绍 过 ， 下 面 我 们 介绍 Jug 
的 安装 方法 ， 命 令 如 下 。 
















































































$ pip3 install jug 

















MapReduce 是 一 种 分 布 式 算法 ， 它 可 以 通过 计算 机 集群 来 处 理 大 规模 数据 。 这 个 算法 
通常 包含 映射 和 化 简 两 个 步骤 。 映 射 阶段 ， 数 据 是 以 并 行 方式 进行 处 理 的 。 这 时 ， 数 据 将 
被 划分 成 一 些 数据 块 ， 而 且 过 滤 及 其 他 操作 都 是 针对 每 个 数据 块 进行 的 。 化 简 阶 段 对 映射 
阶段 的 处 理 结果 进行 合并 ， 如 创建 一 个 统计 报告 。 


如 果 有 一 个 文本 文件 列表 ， 那 么 我 们 可 以 针对 每 个 文件 来 计算 单词 计数 ， 这 个 工作 可 
以 在 映射 阶段 完成 。 最 后 ， 我 们 可 以 把 各 个 单词 计数 组 合成 一 个 语料库 词 频 字典 。Jug 提供 
了 MapReduce 功能 ， 我 们 可 以 通过 本 书 代码 包 中 的 jug demo.py 文件 加 以 演示 。 需 要 注意 
的 是 ， 这 段 代 码 依赖 于 cython_ module. 

































































































































































import jug.mapreduce 
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from jug.compound import CompoundTask 
import cython module as cm 

import cytoolz 

import pickle 


def get txts(): 


return [(1, 'Lorem ipsum dolor sit amet, consectetur adipiscing 
elit.'), (2, 'Donec a elit pharetra, malesuada massa vitae, elementum 
dolor.'), (3, 'Integer a tortor ac mi vehicula tempor at a nunc.')] 


def freq dict(file words): 
filtered = cm.filter sw(file words[1].split()) 


fd = cytoolz.frequencies(filtered) 





return fd 


def merge(left, right): 
return cytoolz.merge with(sum, left, right) 





merged counts = CompoundTask(jug.mapreduce.mapreduce, merge, freq dict, 
get txts(), map step-1) 





上 述 代码 在 化 简 阶 段 调用 了 merge0 函 数 ， 在 映射 阶段 调用 了 freq_dictO 函 数 。 此 外 ， 
我 们 还 定义 了 一 个 包含 多 个 子 任务 的 Jag CompoundTask。 运 行 这 段 代 码 前 ， 需 要 启动 一 个 
Redis 服务 器 。 然 后 ， 就 可 以 利用 以 下 命令 进行 MapReduce 处 理 了 。 


$ jug execute jug demo.py --jugdir-redis://127.0.0.1/& 














以 上 命令 末尾 的 & 符 号 表示 这 条 命令 将 在 后 台 运 行 。 利 用 这 种 方式 ， 可 以 从 多 人 台 计 和信 
机 来 执行 该 命令 ， 只 要 Redis 服务 器 可 以 通过 访问 即 可 。 在 这 个 例子 中 ，Redis 仅 在 本 地 计 
算 机 上 运行 ， 本 地 主机 的 IP 地 址 是 127.0.0.1。 但 是 ， 我 们 仍然 可 以 在 本 机 上 多 次 运行 该 命 
令 。 我 们 可 以 查看 该 Jug 命令 的 状态 ， 方 法 如 下 。 
































$ jug status jug demo.py 














默认 情况 下 ， 如 果 没 有 设置 jugdir 参数 ，Jug 会 将 数据 存放 到 当前 工作 目录 下 。 如 果 要 
清除 Jug 相关 目录 ， 我 们 可 以 使 用 如 下 命令 。 








$ jug cleanup jug demo.py 






































如 果 想 查询 Redis 并 进行 其 他 分 析 工 作 ， 还 需要 用 到 其 他 程序 。 
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在 这 个 程序 中 ， 使 用 下 列 命令 来 初始 化 Jug。 











jug.init('jug demo.py', 'redis://127.0.0.1/"') 
import jug demo 





以 下 代码 用 来 获得 化 简 阶 段 生 成 的 结果 。 








words = jug.task.value (jug demo.merged counts) 





以 下 代码 取 自 本 书 代 码 包 中 的 jug_redis.py 文件 。 





import jug 


def main(): 
jug.init('jug demo.py', 'redis://127.0.0.1/"') 
import jug demo 
print("Merged counts", jug.task.value(jug demo.merged counts)) 





if name == " main ": 





main() 


12.8 安装 MPI for Python 





消息 传递 接口 CThe Message Passing Interface, MPI) 是 一 种 标准 协议 ， 由 计算 机 专 
家 开发 用 来 实现 分 布 式 计算 机 的 广泛 协作 。20 世纪 90 ER, MPI 主要 用 于 Fortran 和 C 
语言 编写 的 程序 中 ， 但 是 ， 它 不 依赖 具体 的 硬 体 和 计算 机 语言 。MPI 函数 可 以 完成 发 送 
和 接收 操作 、 实 现 MapReduce 功能 和 同步 。MPI 既 有 处 理 两 个 处 理 器 的 点 对 点 函数 ， 也 
提供 了 处 理 所 有 处 理 器 之 间 的 操作 的 相应 函数 。MPI 支持 多 种 计算 机 语言 ， 也 就 是 说 ， 
提供 了 多 种 语言 绑 定 ， 其 中 就 包括 Python。 读 者 可 以 自行 下 载 MPI， 在 本 书写 作 时 ，MPI 
的 最 新 版 本 为 2.0.2。 当 然 ， 我 们 也 可 以 通过 网 络 检查 是 否 有 更 新 的 版 本 。 安 装 MPI 的 时 
吴 时 间 可 能 有 点 长 ， 大 概 需 要 30min。 下 面 是 具体 的 安装 命令 ， 这 里 假设 将 其 安装 到 
/usr/local 目录 下 面 。 
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$ ./configure --prefix-/usr/local 
$ make all 
$ sudo make install 


下 面 来 安装 MPI 的 Python 绑 定 ， 命 令 如 下 。 


$ pip3 install mpi4py 
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12.9 IPython Parallel 









































IPython Parallel 是 用 于 并 行 计 算 的 IPython 应 用 程序 接口 。 这 里 ， 我 们 用 它 来 通过 MPI 




















来 传递 消息 。 为 此 ， 我 们 可 能 需要 设置 相应 的 环境 变量 ， 命 令 如 下 。 











$ export LC ALL-en US.UTF-8 
$ export LANG-en US.UTF-8 


$ ipython3 profile create --parallel --profile-mpi 

















以 上 命令 将 在 我 们 的 home 目录 下 面 创 建文 件 ， 有 具体 路 径 为 .ipython/ profile mpi/. 
启动 一 个 使 用 MPI 性 能 分 析 的 集群 ， 命 令 如 下 。 





























~ 


$ ipcluster start --profile=mpi --engines=MPI --debug 














上 面 的 命令 中 ,规定 性 能 分 析 工 具 为 mpi， 同 时 指定 MPI 引擎 提供 调试 级 别 的 记录 
功能 。 这 样 ， 我 们 就 可 以 通过 IPython Notebook 与 集群 进行 交互 了 。 输 入 下 列 命令 ， 我 
们 得 到 一 个 具有 绘图 功能 的 笔记 本 (notebook)， 同 时 NumPy、SciPy 和 matplotlib 会 自 


























动 导 入 。 























$ jupyter-notebook --profile-mpi --log-level-DEBUG 








以 上 命令 使 用 mpi 作为 调试 记录 级 别 的 性 





能 分 析 工 具 。 对 于 这 





文 个 笔记 本 例子 而 言 ， 它 


存放 于 本 书 代 人 码 包 中 的 IPythonParallel.ipynb 文件 中 。 下 面 导 入 IPython Parallel 的 Client 类 


和 statsmodels.api 模块 ， 命 令 如 下 。 


In [1]:from ipyparallel import Client 


import statsmodels.api as sm 











下 面 加 载 太 阳 黑 子 数据 ， 然 后 计算 平均 值 。 











In [2]: data loader = sm.datasets.sunspots.load pandas() 


vals = data loader.data['SUNACTIVITY' 


glob mean = vals.mean() 
glob mean 


以 下 是 输出 结果 。 


] .values 


12.9 


Out [2]: 49.752103559870541 








In [3]: c = Client(profile-'mpi') 

















为 客户 端 创建 一 个 视图 ， 命 令 如 下 。 


In [4]: view-c[:] 














IPython 提供 了 许多 魔术 (magics) 命令 ， 即 IPython notebooks 的 
果 要 启用 这 些 命令 ， 方法 如 下 。 








In [5]: view.activate() 


T 





下 面 来 加 载 摘自 本 书 代 码 包 中 的 mpi ipython.py 文件 。 


from mpi4py import MPI 

from numpy.random import random integers 
from numpy.random import randn 

import numpy as np 





import statsmodels.api as sm 
import bottleneck as bn 
import logging 


def jackknife(a, parallel-True): 
data loader = sm.datasets.sunspots.load pandas () 
vals = data loader.data['SUNACTIVITY'].values 


results = [] 


for i in a: 
tmp = np.array(vals.tolist()) 
tmp[i] = np.nan 
results.append(bn.nanmean (tmp)) 
results = np.array(results) 


if parallel: 
comm = MPI.COMM WORLD 
rcvBuf = np.zeros(0.0, 'd') 
comm.gather([results, MPI.DOUBLE], [rcvBuf, MPI 








return results 


IPython Parallel 
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些 专用 的 命令 。 如 





.DOUBL 





[ss | 
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if name == " main 


"e. 





Skiplist = np.arange(39, 


print(jackknife(skiplist, False)) 


上 面 的 程序 中 包含 了 一 个 执行 刀 切 法 重 采 样 的 函数 。 刀 切 法 重 采 样 技术 是 
技术 ， 即 先 删除 样本 中 的 一 个 观测 值 ， 然 后 再 
我 们 关心 的 是 平均 值 。 剔 除 一 个 观测 值 的 方法 是 : 




















dtype-'int!') 






































p JE DES 








ÍT Bottleneck 的 nanmean() PAZ. — Pill 6o Du EAS s 


In [6]: view.run('mpi ipython.py') 


然后 ， 拆 取 并 扩展 一 个 数组 ， 让 它 带 有 太 PB 





In [7]: view.scatter( 
































黑子 数组 全 部 索引 。 


'a',np.arange(len(vals),dtype-'int 


数组 a 可 以 在 笔记 本 中 显示 出 来 ， 命 令 如 下 。 





In [8]: view['a'] 








以 上 命令 的 输出 结果 如 下 。 


Out [8]: [array([ 0, 1, 


2, 


15, l6, 17, L8, 19, 20; 
334. 925 35,).36,4 375439]; 


2 


duod, oy 767 
T 223 29542 


. TRUNCAT 


在 所 有 客户 端 上 调用 jackknifeO 函 数 。 





In [9]: $px means = jackknife (a) 

















所 有 工作 进程 Cworker processes) £ 








In [10]: view['means' 











] 


"s 8, 


4, 25, 
:] 





ED 
ED .. 


行 相应 的 统计 估 














本 


种 重 采样 
计 。 就 本 例 而 言 ， 
将 其 置 为 Numpy NaN， 然 后 对 新 样本 执 


95: L0 5. 115. S23. 703, 514, 


26,215,285 











结束 后 ， 就 可 以 查看 结果 了 。 


结果 是 一 个 列表 ,长 度 与 我 们 启动 的 进程 数量 相同 ,每 个 进程 都 返回 


其 中 存放 刀 切 法 重 采 样 技术 计算 和 


E 





一 个 比较 宽 的 列表 。 


EH 

















In [11]: all means = [] 


for v in view['means' 


all means.extend(v 


Js 


) 





到 的 平均 值 。i 




















这 个 结 





29, 30, 














吉 构 不 是 十 分 有 月 








3T, 








32, 


一 个 NumPy 数组 ， 


， 因 此 将 其 转换 为 
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mean(all means) 
这 时 输出 结果 如 下 。 


Out [11]: 49.752103559870577 

















我 们 还 可 以 计算 标准 差 ， 不 过 这 个 太 简 单 ， 这 里 就 不 多 解释 
切 法 求 出 的 平均 值 用 直方 图 画 出 来 。 
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Es 






























































In [13]: hist(all means, bins-sqgrt(len(all means))) 
































进行 故障 排除 时 ， 我 们 可 以 使 用 以 下 命令 来 显示 工作 进程 的 错误 信息 。 








In [14]: [(k, c.metadata[k]['started'], c.metadata[k]l['pyout'], 
c.metadata[k]['pyerr']) for k in c.metadata.keys()] 
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本 章 对 摘自 第 9 章 中 的 情感 分 析 脚 本 进行 了 性 能 调 优 。 我 们 通过 性 能 分 析 、Cython 和 
多 种 性 能 提升 措施 ， 最 终 让 它 的 速度 翻 倍 了 。 此 外 ， 我 们 还 使 用 multiprocessing、Joblib、 
Jug 和 MPI via IPython Parallel 充分 利用 了 并 行 化 。 

本 章 是 本 书 的 最 后 一 章 ， 当 然 ， 我 们 学 习 的 步伐 不 会 就 此 停 住 ， 我 们 需要 不 停 地 修改 
代码 ， 直 到 能 够 满足 要 求 为 止 。 如 果 我 们 有 一 个 专门 的 数据 分 析 项 目 ， 那 再 好 不 过 了 ， 即 
使 仅仅 是 一 个 用 于 练 手 的 项 目 。 如 果 还 没有 ， 我 们 不 妨 参加 竞赛 活动 。 许 多 竞赛 都 提供 了 
不 错 的 奖品 。 















































本 附录 简要 回顾 本 书 中 涉及 的 技术 术语 和 概念 。 














阿 姆 达尔 定律 可 以 推算 并 行 化 带 来 的 加 速 比 的 最 大 可 能 取 值 。 因 为 受到 i 
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程 数量 的 限 














制 ， 所 以 加 速 比 的 绝对 最 大 值 不 可 能 无 限 大 。 任 何 给 定 的 Python 代码 中 ， 总 有 某 些 部 分 代 





























码 无 法 实现 并 行 化 。 此 外 ， 我 们 还 必须 考虑 并 行 化 设置 和 有 关 i 





程 间 通信 所 引起 的 


























阿 姆 达 尔 定律 指出 ， 加 速 比 倒数 、 进 程 数量 倒数 以 及 无 法 并 行 化 的 程序 代码 所 占 比 重 之 间 








存在 线性 相关 。 

















ARMA 模型 是 自 回归 模型 和 移动 平均 模型 的 组 合体 ， 常 用 于 预测 时 间 序 列 的 未 来 值 。 
人 工 神经 网 络 (ANN) 是 受到 生物 大 脑 的 启发 ， 用 神经 元 构成 的 、 带 有 输入 端 和 输出 


端的 一 类 网 络 。 神 经 元 的 输出 ， 可 以 继续 传递 给 神经 元 作为 输入 ， 以 此 类 






































一 个 多 层 网 络 。 神 经 网 络 含有 自 适 应 元 件 Cadaptive elements), 
处 理 非 线性 模型 以 及 模式 识别 问题 。 
















































































关 值 必定 是 相当 高 的 。 

















自 相关 图 可 以 用 来 描绘 时 间 序 列 数据 在 不 同时 间 延 迟 下 的 自 相 关 程 度 














相同 时 滞 的 时 间 序 列 之 间 的 相关 程度 。 


自 回归 模型 是 一 种 利用 时 间 序 列 中 前 面 的 值 ， 通 过 〈 一 般 为 线性 ) 























E, EN 以 得 至 
因此 ， 它 们 非常 适合 用 来 
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扩展 的 迪克 - 富 勒 CAugmented Dickey-Fuller, ADF) 检验 ， 常 称 ADF 检验 ， 是 一 种 


针对 协 整 关系 的 统计 检验 。ADF 检验 常用 于 测试 时 间 序 列 的 稳定 性 。 
自 相关 指 的 是 同一 个 数据 集 不 同时 刻 的 取 值 之 间 的 相关 程度 ， 通 常 有 
如 ， 如 果 后 延 一 个 周期 ， 这 时 就 可 以 检查 前 值 是 否 对 现 值 有 影响 。 如 果 有 影响 ， 那 么 自 相 





昌 来 表示 趋势 。 例 




















相关 是 具有 


am 
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型 。 自 回归 模型 是 ARMA 模型 的 一 个 特例 ， 相 当 于 具有 零 移动 平均 分 









































归来 预测 将 来 值 的 模 
的 ARMA 模型 。 
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词 袋 模型 是 一 个 简化 的 文本 模型 ， 其 中 文本 由 一 袋 单词 表示 。 对 于 这 种 表示 方法 ， 单 
词 的 次 序 忽略 不 计 。 一 般 情况 下 ， 这 个 模型 把 单词 计数 (word counts) 或 者 说 是 某 个 单词 
的 存在 性 作为 其 特征 。 
泡 式 图 是 一 种 扩展 的 散 点 图 ， 其 中 ， 第 3 个 变量 的 值 是 通过 包围 数据 点 的 气泡 的 大 小 
来 表示 的 。 
Cassandra 查询 语言 (Cassandra Query Language, CQL) 是 一 种 用 来 查询 Apache 
Cassandra 的 语言 ， 其 语法 与 SQL 类 似 。 
协 整 类 似 于 相关 性 ， 也 是 时 间 序 列 数据 的 一 个 统计 特性 。 协 整 通常 用 来 衡量 两 个 时 间 
序列 之 间 的 同步 程度 。 
聚 类 分 析 的 目的 是 把 数据 分 成 不 同 的 组 ， 每 个 组 称 为 一 个 聚 类 。 如 果 训 练 数据 未 经 标 
记 ， 这 时 聚 类 分 析 就 属于 无 监督 的 分 析 方 法 。 一 些 聚 类 算法 要 求 推测 聚 类 数 ， 另 一 些 算法 
则 没有 这 种 要 求 。 
EXER (Cascading Style Sheets, CSS) 是 一 种 描述 网 页 样式 元 素 的 语言 。 它 是 
万 维 网 协会 (the World Wide Web Consortium). 开发 和 维护 的 。 
所 谓 CSS 选择 器 ， 实 际 上 就 是 一 些 用 于 选择 网 页 内 容 的 规则 。 
NumPy 的 字符 码 用 来 向 后 兼容 Numeric， 因 为 Numeric 是 NumPy 的 前 身 。 
数据 类 型 对 象 ， 实 际 上 就 是 numpy.dtype 类 的 各 种 实例 。 这 些 数据 类 型 对 象 通常 都 
提供 了 面向 对 象 的 接口 ， 以 供 操作 NumPy 的 数据 类 型 。 
特征 值 是 方程 Ax = ax 的 标量 解 ， 其 中 A 是 一 个 二 维和 矩阵 ， 而 * 是 一 个 一 维 向 量 。 
特征 向 量 (eigenvectors) 用 来 表示 特征 值 的 向 量 。 
指数 移动 平均 法 是 一 种 权 值 随时 间 以 指数 形式 递减 的 移动 平均 方法 。 
快速 侍 里 叶 变 换 (Fast Fourier Transform, FFT) 是 一 种 计算 傅 里 时 变换 的 快捷 方法 。 
FFT 的 计算 复杂 度 为 O(N log N)， 这 对 于 以 前 的 算法 而 言 ， 性 能 得 到 了 极 大 的 提升 。 
过 滤 是 一 种 信号 处 理 技术 ， 它 涉及 对 信和 号 的 某 些 部 分 进行 删 减 或 抑制 。 过 滤 的 类 型 有 
很 多 ， 其 中 包括 中 值 和 Wiener 滤波 。 
傅 里 时 分 析 是 建立 在 以 数学 家 Joseph Fourier 命名 的 健 里 叶 级 数 之 上 的 一 种 数学 方法 。 
傅 里 叶 级 数 是 一 种 表示 函数 的 数学 方法 ， 它 通常 使 用 正弦 函数 和 余弦 函数 构成 的 无 穷 级 数 
来 表示 函数 。 当 然 ， 这 里 的 函数 既 可 以 是 实 值 函数 ， 也 可 以 是 复 值 函数 。 
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遗传 算法 是 一 种 基于 生物 进化 论 的 搜索 和 优化 算法 。 


图 形 处 理 单元 《GPU) 是 专门 用 于 高 效 显 示 图 像 的 集成 电路 。 近 来 ，GPU 已 经 开始 用 
， 如 训练 神经 网 络 等 。 


层次 数据 格式 〈Hierarchical Data Format, HDF) 是 一 种 存储 大 型 数值 数据 的 技术 
范 。 同 时 ，HDF 工作 组 还 专门 为 这 


希 尔 伯 特 - 黄 变 换 (Hilbert-Huang Transform) 是 一 种 分 解 信 号 的 数学 算法 ， 这 个 方法 
居中 的 周期 循环 。 它 已 经 成 功用 于 确定 太阳 黑子 活动 的 周期 。 


超 文本 标记 语言 (HyperText Markup Language, HTML) 是 创建 Web 页 面 的 基础 性 


于 完成 大 规模 并 行 计生 








可 以 用 于 发 现时 间 序 列 数 和 


















































,规范 提供 了 一 个 软件 库 。 
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技术 ， 它 为 媒体 、 文 本 和 超 链 接 定 义 了 相应 的 标签 。 
国际 互联 网 工程 任务 组 (Internet Engineering Task Force, IETF) 是 一 个 致力 于 维护 





和 开发 因特网 的 开放 式 工 作 组 。 这 是 








这 种 格式 ， 我 们 就 
格式 来 说 ，JSON 更 加 简洁 。 
K- 折 交叉 验证 是 一 种 交叉 验 记 












































的 开放 ， 是 指 任何 人 都 可 以 参与 规则 的 制定 。 
JavaScript 对 象 表示 法 (JavaScript Object Notation, JSON) 是 一 种 数据 格式 ， 利 用 
] JavaScript 表示 法 来 表示 数据 了 。 相 对 于 诸如 XML 之 类 的 数据 















































EF 形式， 其 中 ， 它 会 把 数据 集 随机 分 为 (一 个 小 整数 ) 份 ， 
































每 一 份 称 为 一 个 包 。 在 次 迭代 中 ， 每 个 包 被 用 作 一 次 验证 ， 其 他 时 候 用 于 训练 ， 最 后 ， 对 


和 迭代 结果 进行 合并 处 理 。 

















Kruskal-Wallis 单 因子 方差 分 析 是 一 种 统计 学 方法 ， 它 能 够 在 没有 对 总 体 分 布 做 出 假 


定 的 情况 下 对 样本 方差 





























时 滞 图 是 




















时 间 序 列 数据 与 原来 






































学 习 曲 线 是 


是 如 何 随 训练 数 





对 数 图 是 一 









































显示 的 是 数量 级 。 











逻辑 回归 是 一 























归 是 以 logistic Pf 

















时 的 变化 而 变化 的 。 





行 相应 的 统计 分 析 。 
时 间 序 列 及 其 时 洁 序 列 的 散 点 图 ， 它 为 我 们 展示 了 具有 时 灌 的 

















相关 性 。 
法 行为 特点 的 可 视 化 方法 ， 用 来 勾画 训练 成 效 和 测试 成 效 





于 形 ， 这 类 图 形 在 数据 变化 巨大 的 情况 下 非常 有 用 ， 因 为 图 
































NS 
































法 ， 可 以 用 于 预测 属于 某 类 别 或 者 某 事件 发 生 的 概率 。 逻 辑 回 
上 的 ， 该 函数 的 取 值 范 围 为 0 一 1， 正 好 与 概率 的 取 值 范围 吻合 。 

































































因此 ， 我 们 可 以 使 用 logistic 函数 把 任意 值 转换 为 概率 值 。 

































































MapReduce 是 一 种 分 布 式 算 法 ， 可 利用 计算 机 集群 来 处 理 大 规模 数据 。 该 算法 通常 需 















































要 经 历 映射 和 化 简 两 个 阶段 。 在 上 映射 阶段 ， 数 据 是 以 并 行 的 方式 进行 处 理 的 。 这 时 ， 数 据 
将 被 划分 成 一 些 数 据 块 ， 而 且 过 滤 及 其 他 操作 都 是 针对 每 个 数据 块 进 行 的 。 化 简 阶段 就 是 















































对 映射 阶段 的 结果 进行 合并 处 理 。 











摩尔 定律 实际 上 是 观察 到 的 一 种 现象 ， 即 现代 电脑 蕊 片上 的 晶体 管 的 数目 每 两 年 就 翻 
一 番 。 从 1970 年 以 来 ， 这 个 趋势 一 直 保 持 至 今 。 此 外 ， 还 有 一 个 第 二 摩尔 定律 ， 也 就 是 车 
























































名 的 Rock 定律 。 这 个 定律 指出 ， 集 成 电路 的 研发 和 制造 成 本 


















































E 在 呈 指 数 式 增长 。 








移动 平均 法 指定 向 前 所 能 看 到 的 数据 的 窗口 大 小 ， 而 且 该 窗口 每 次 前 移 一 个 周期 的 时 









































候 ， 都 会 计算 其 平均 值 。 移 动 平 均 法 的 类 型 有 很 多 种 ， 它 们 的 区 别 主要 在 于 求 平 均值 所 用 









































的 权重 有 所 不 同 。 
































朴素 贝 叶 斯 分 类 是 一 种 基于 概率 与 数理 统计 领域 中 的 贝 叶 斯 定理 的 概率 分 类 算法 ， 它 
































之 所 以 称 为 朴素 ， 是 因为 它 假设 属性 之 间 相 互 独立 。 




















软件 体系 结构 模式 ， 用 来 





对 象 关系 映射 CObject-Relational Mapping, ORM) 是 
实现 数据 库 模 式 和 面向 对 象 计算 机 语言 之 间 的 转换 。 






































观点 挖掘 或 者 情感 分 析 是 一 个 研究 领域 ， 则 在 有 效 发 现 和 评估 文本 内 的 意见 和 情绪 。 




















词性 (PartofSpeech, POS) 标签 是 加 注 于 句子 中 每 个 单词 上 的 各 种 标签 ， 这 些 标签 











都 具有 相应 的 语法 含义 ， 如 动词 或 者 名 词 等 。 











表述 性 状态 转移 (Representational State Transfer, REST) 是 一 种 网 络 服务 架构 风格 。 








简易 信息 聚合 (Really Simple Syndication, RSS) 是 一 











(Web Feeds) 的 公布 和 检索 标准 。 




















诸如 博客 之 类 的 网 络 订阅 源 











散 点 图 是 一 种 二 维 图 像 ， 用 来 展示 直角 坐标 系 中 两 个 变量 之 间 的 关系 ， 其 中 ， 一 个 变 













































































们 就 可 以 迅速 地 绘制 其 相互 关系 了 。 

















量 值 表示 它 在 一 个 坐标 轴 的 坐标 ， 另 一 个 变量 值 表示 它 在 另 一 个 坐标 轴 的 坐标 。 这 样 ， 我 



































言 号 处 理 是 隶属 于 工程 和 应 用 数学 的 一 个 领域 , 对 模拟 信号 和 数字 信号 进行 处 理 分 析 。 


























当然 ， 这 里 的 模拟 信号 和 数字 信和 号 可 以 看 作 是 随时 间 变 化 的 一 些 变量 。 




















SQL 是 一 种 关系 数据 库 查 询 和 操作 的 专用 语言 ， 可 以 用 来 创建 数据 表 、 向 数据 表 插 入 





数据 行 以 及 删除 数据 表 等 。 












































停 用 词 指 的 是 那些 常用 但 是 信 
























































a 
停 用 词 先 删除 掉 。 尽 管 过滤 停 用 词 是 



































个 惯例 ， 但 是 对 于 停 有 
监督 学 习 是 一 种 机 器 学 习 技术 ， 它 要 求 使 用 带 有 标签 的 


` 





很 低 的 字 词 。 进 行文 本 分 析 前 ， 我 们 通常 需要 将 
有 词 至 今 尚 未 有 标准 的 定义 。 
| 练 数据 。 
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支持 向 量 机 (SVM) 可 以 用 来 完成 回归 (SVR) 和 分 类 (SVC) 任务 。SVM 会 将 数据 
点 映射 到 一 个 多 维 空间 ， 这 个 映射 过 程 通常 由 所 谓 的 核 函 数 完成 。 核 函数 可 以 是 线性 的 ， 
也 可 以 是 非 线 性 的 。 

词 频 和 逆 文 档 频率 (TF-IDF) 是 衡量 语料库 中 的 单词 重要 性 的 一 种 度量 指标 。 它 通常 
包括 单词 出 现 的 频率 和 逆 文 档 频率 。 词 频 用 来 表示 单词 在 一 个 文档 中 出 现 的 次 数 。 对 于 逆 
文档 频率 ， 我 们 先 求 出 其 中 含有 该 单词 的 文档 数量 ， 然 后 取 其 倒数 即 可 。 
时 间 序 列 是 对 数据 点 按照 取样 时 间 先 后 顺序 排列 的 一 个 有 序列 表 。 通 常 ， 每 个 数据 点 
带 有 一 个 相应 的 时 间 戳 。 时 间 序 列 可 能 是 稳定 的 ， 也 可 能 是 不 稳定 的 。 
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LU UL 
































本 附录 列 出 了 一 些 常 用 函数 并 根据 其 所 属 程序 包 进 行 组 织 ， 这 些 程 序 包 涉及 
matplotlib、NumPy、Pandas、scikit-learn 和 SciPy。 





Matplotlib 


下 面 是 常用 的 matplotlib 函数 。 
e matplotlib.pyplot.axis(*v, **kwargs): 该 函 数 用 于 获取 或 者 设置 
轴 属 性 。 例 如 ，axis ('off' ) 表示 关闭 坐标 轴线 及 其 标签 。 


e matplotlib.pyplot.figure(num-None, figsize-None, dpi-None, 





| 
> 














KER 


























paria 





























facecolor=None, edgecolor=None, RE, FigureClass=<class 


E 








'matplotlib.figure.Figure'», **kwargs): 这 个 函数 用 于 新 建 一 个 图 像 。 


e matplotlib.pyplot.grid(b=None, which='major', axis='both', 
**kwargs): 这 个 函数 用 于 打开 或 者 关闭 图 像 中 的 网 格 线 。 


e matplotlib.pyplot.hist(x, bins-10, range=None, normed-False, 





























weights-None, cumulative-False, bottom-None, histtype-'bar', 








align-'mid', orientation -'vertical', rwidth-None, log-False, 








colorzNone, labelzNone, stacked-False, hold-zNone, **kwargs): 
这 个 函数 用 于 绘制 直方 图 。 


















































e matplotlib.pyplot.imshow(X, cmap=None, norm-None, aspect-None, 





interpolation -None, alpha-None, vmin-None, vmax-None, origin- 





None, extent-None, shape-None, filternorm-1, filterrad -4.0, 
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imlim-None, 
个 函数 用 来 绘 天 


otl 





m 


atp] ib.pypl 


resampl 
| 类 似 数组 之 类 的 数据 的 图 像 。 


ot.1 


—-None, url-None, hold-None, 


**kwargs): 


这 














这 个 函数 可 以 








来 在 指 





egend(*args, **kwargs) 


























XE LEE RAA 


文字 ， EFE MAIS Ma je 

















m ot] 





atp] 


ib.pypl 


ot.plot(*args, 


**kwargs): 过 





函数 可 以 通关 








m 


norm=None, wvmin-None, 


verts-None, holdzNone, **kwargs): 


matplotlib.pyplot.show(*args, 














matplotlib.pypl 
图 形 索引 号 的 情况 下 , 这 




















个 函数 可 以 














多 个 Oo y) 坐标 以 及 相应 可 选 的 格式 串 来 创建 二 


atplotlib.pyplot.scatter (x, y, s-20, 


vmax-None, 


** kw) 


ot.subplot(*args, 


ip S 





e) 


c-'b', marker-'o', cmap 











D linewidths 





函数 可 以 为 两 个 数组 创建 散 点 图 
示 图 像 。 





这 个 函数 用 来 显 
在 给 





**kwargs): 定 行 号 、 














JEF 






































过 单个 或 





-None, 





=None, 





o 


列 号 和 


图 。 所 有 的 这 些 数 字 都 是 从 1 开始 
























































计数 。 例 如 ，pPlt.subplot (221) 的 作用 是 创建 2X2 网 格 中 的 第 一 个 子 图 。 

e matplotlib.pyplot.title(s, *args, **kwargs) 函数 的 作用 是 给 
图 像 加 标题 。 

NumPy 

下 面 是 常用 的 NumPy 函数 。 

e Numpy.arange([start,] stop[, step,], dtypesNone): 这 个 函数 可 以 
利用 指定 范围 内 的 等 差 数 值 来 创建 NumPy 数组 。 

e Numpy.argsort(a, axis--1, kind-'quicksort', order-None): 这 个 
函数 将 返回 一 个 与 数组 元 素 将 来 排列 顺序 一 致 的 下 标 序 列 。 

e Numpy.array(object, dtype-None, copy-True, order-None, subok 


Fals 





N 
回 单位 





Numpy. 


umpy. 





e, ndmin-0): 这 个 函数 可 以 从 类 似 数组 的 序列 ， 例 如 Python 列表 来 创建 


umPy 数组 。 

















函数 将 计算 两 个 数组 的 点 积 。 


ye(N, M=None, k-0, dtype-«type 'float'»): 这 个 函数 将 返 
HERE. 


dot (a, b, out=None) 


























Numpy.load(file, mmap mode-None): 这 个 函数 用 来 从 .npy、.npz 或 者 
pickle 中 加 载 NumPy 数组 或 者 经 过 序列 化 处 理 的 对 象 。 内 存 映射 数组 
(memory-mapped array) 将 被 存放 到 文件 系统 中 并 且 不 必 全 部 载 入 内 存 ， 这 对 大 型 
数组 来 说 非常 有 用 。 


Numpy.loadtxt(fname, dtype-«type 'float'», comments-'i', deli 






































miter- None, converters-None, skiprows-0, usecols-None, unpack- 


False, ndmin-0): 这 个 函数 可 以 把 文本 文件 中 的 数据 加 载 到 一 个 NumPy 数 
组 中 。 








mpy.mean(a, axis-None, dtype-None, out-None, keepdims -False): 


Nu 
这 个 函数 可 以 计算 给 定 坐 标 轴 上 坐标 值 的 算术 平均 值 。 
































Numpy.median(a, axis-None, out-None, overwrite input-False): 
这 个 函数 可 以 用 来 计算 给 定 坐 标 轴 上 坐标 值 的 中 值 。 

Numpy.ones(shape, dtype-zNone, order-'C' 这 个 函数 可 以 用 来 创建 指 
定形 状 和 数据 类 型 的 NumPy 数组 ， Roni 1。 


Numpy.polyfit(x, y, deg, rcond=None, full-False, w-None, 
cov-False): 这 个 函数 可 以 用 来 完成 最 小 二 乘 多 项 式 拟 合 。 

Numpy.reshape (a, newshape, order-'C'): 这 个 函数 可 以 用 来 修改 NumPy 
数组 的 形状 。 

Numpy.save(file, arr): 这 个 函数 可 以 将 NumPy 数组 保存 到 一 个 NumPy 的 .npy 
格式 的 文件 中 。 


Numpy.savetxt(fname,X,fmt-'$.18e',delimiter-'',newline- 'Mn', 
header-'',footer-'', comments-'4 '): 这 个 函数 可 以 用 来 把 一 个 NumPy 
数组 保存 为 一 个 文本 文件 


Numpy. e. axis-None, dtype-None,out-None,ddof-0,keepdims 
-False): 这 个 函数 可 以 用 来 返回 给 定 坐标 轴 上 的 坐标 值 的 标准 差 。 
Numpy.where(condition, [x, y]): 这 个 函数 可 以 根据 一 个 布尔 条 件 从 输入 
的 数组 中 选择 数组 元 素 。 


Numpy.zeros(shape, dtype-float, orders'C'): 这 个 函数 可 以 用 来 创 
建 指定 形状 和 数据 类 型 的 NumPy 数组 ， 其 元 素 初 始 值 为 0。 



















































































o 















































Iz] 


















































272 附录 B 常用 函数 


Pandas 














下 面 是 常用 的 pandas 函数 。 


e pandas.date range(start-None,end-None,periods-None, freq-'D', 





tz-None, normalize-False, name-None, closed-None): 这 个 函数 可 
以 用 来 创建 一 个 固定 频率 的 日 期 时 间 索 引 。 


e pandas.isnull(obj): 这 个 函数 可 以 用 来 查找 NaN M None fü. 














Tu 






































e pandas.merge(left, right, how-'inner', on-cNone, left on-None, 








right on-None,left index-False,right index-False,sort-False, 
suffixes-(' x', ' y'), copy-True): 这 个 函数 可 以 通过 类 似 数据 库 的 列 
或 者 索引 的 联接 操作 来 合并 DataFrame 对 象 。 








e pandas.pivot table(data, values-None, rows-None, cols-None, 
aggfunc-'mean', fill value-None, margins-False, dropna-True): 
这 个 函数 可 以 用 来 创建 一 个 类 似 Excel 中 使 用 数据 透视 表 的 pandas DataFrame 
































* / pandas.read csv(filepath or buffer, sep-',', dialect-None, 





compression-None,doublequote-True,escapechar-None,quotechar 





-'"', quoting-0, skipinitialspace-False, lineterminator-None, 





header-'infer',index col-None,names-None,prefix-None,skipro 


ws-None,skipfooter-None,skip footer-0,na values-None,na fva 





lues-None, true values-None, false values-None, delimiter- 











None, converters-None,dtype-None,usecols-None,engine-'c',delim 





whitespace-False, as recarray-False, na filter-True, compact 





ints- False, use unsigned-False, low memory-True, buffer lines- 


None, warn bad lines-True, error bad lines-True, keep default 











na- True, thousands-Nment-None, decimal-'.', parse dates-False, 





keep date col-False,dayfirst-False,date parser-None,memory 








map-False,nrows-None,iterator-False,chunksize-None,verbose- 








False,encoding-None,squeeze-False,mangle dupe cols-True,tup 
leize cols-False, infer datetime format-False): 这 个 函数 可 以 利 
一 个 CSV 文件 来 创建 一 个 DataFrame。 
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e pandas.read excel (io, sheetname, **kwds): 这 个 函数 用 作 将 Excel 工 
作 表 读 入 一 个 DataFrame 中 。 





e pandas.read hdf (path or buf, key, **kwargs): 这 个 函数 可 以 从 一 个 
HDF 仓库 中 返回 一 个 pandas 对 象 。 








e pandas.read json(path or buf-None, orient-None, typ-'frame', 








dtype-True,convert axes-True,convert dates-True,keep default 








dates-True, numpy-False, precise float-False, date unit-None): 
这 个 函数 可 以 用 一 个 JSON 字符 串 来 创建 一 个 pandas 对 象 。 








e pandas.to datetime (arg, errors-'ignore', dayfirst-False, utc- 


None, box-True, format-None, coerce-False, unit-2'ns', infer 





datetime format-False): 这 个 函数 可 以 用 来 将 一 个 字符 串 或 者 字符 串 列表 
转换 为 日 期 时 间 类 型 (DATETIME) 数据 。 











Scikit-learn 











下 面 是 常用 的 scikit-learn 函数 。 


learn.cross validation.train test split(*arrays, **options): 


SK 
这 个 函数 可 以 用 来 将 数组 拆 分 为 随机 的 训练 数据 集 和 测试 数据 集 。 








e sklearn.metrics.accuracy score(y true, y pred, normalize-True, 


sample weight -None): 这 个 函数 可 以 用 来 返回 分 类 的 准确 度 。 




















e sklearn.metrics.euclidean distances (X, Y-None, Y norm squared 


-None, squared -False): 这 个 函数 可 以 用 来 计算 输入 数据 的 距离 矩阵 。 




















IT 











SciPy 


下 面 是 常用 的 SciPy 函数 。 





scipy.fftpack 
e fftshift(x, axes-None): 这 个 函数 用 来 把 零 频 分 量 移 到 频谱 中 心 。 


e rfft(x, n-None, axis--1, overwrite x-0): 这 个 函数 用 来 对 实数 数组 
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进行 离散 傅 里 时 变换 。 
scipy.signal 


e detrend(data, axis--1, type-'linear', bp-0): 这 个 函数 用 来 删除 线 
性 趋势 或 者 数据 中 的 常数 。 

e medfilt(volume, kernel size-None): 这 个 函数 用 来 对 数组 进行 中 值 滤 波 
处 理 。 

e wiener(im, mysize-None, noise-None): 这 个 函数 用 来 对 一 个 数组 进行 
Wiener 滤波 处 理 。 





























scipy.stats 


e anderson(x, dist-'norm'): 这 个 函数 可 以 对 根据 指定 概率 分 布 生成 的 数据 
进行 Anderson-Darling 检验 。 











e kruskal(*args): 这 个 函数 可 以 用 来 完成 数据 的 Kruskal-Wallis H 检验 。 


e normaltest(a, axis-0): 这 个 函数 可 以 用 来 测试 数据 是 否 符合 正 态 分 布 。 














e scoreatpercentile (a,per,limit-(),interpolation method-'fraction'): 
这 个 函数 用 来 确定 输入 的 数组 中 指定 百 分 位 数 所 对 应 的 元 素 值 。 

e shapiro(x, asNone, reta-False): 这 个 函数 可 以 通过 夏 皮 罗 - 威 尔 克 法 来 
DENA 其 正 态 性 。 









































Python 数 据 分 析 
(第 2 版 ) 


数据 分 析 技 术 能 够 帮助 我 们 从 少量 和 大 量 的 数据 中 产生 
有 用 的 见解 。Python 拥 有 许多 强大 的 程序 库 ， 已 经 成 为 通过 阅读 本 书 ， 你 将 学 会 : 


进行 各 种 数据 分 析 和 预测 建 模 任务 的 流行 平台 。 
d d pue S UE a 在 各 种 平台 上 安装 开源 Python 模块 ， 例 如 NumPy、 





通过 阅读 本 书 ， 你 将 学 会 如 何 使 用 Python 处 理 和 操作 数 SciPy. Pandas, stasmodels, scikit-learn, 
据 ， 并 完成 复杂 的 分 析 和 建 模 。 我 们 将 借助 NumPy 和 theano、keras 和 tensorflow 等 ; 
Pandas 来 学 习 数 据 的 各 种 操作 ， 例 如 聚合 、 连 接 、 附 m 准备 和 清洗 数据 ， 并 将 其 用 于 探索 性 分 析 ; 

加 、 清 洗 和 处 理 缺 失 值 等 。 本 书 将 介绍 如 何 从 各 种 数据 a 使 用 Pandas 处 理 数据 ; 

源 (例如 SQL、NoSQL、CSV 文 件 和 HDF5 ) 中 存储 m 从 RDBMS、NoSQL 和 分 布 式 文件 系统 (如 HDFS 


和 检索 数据 。 此 外 ， 我 们 还 将 学 习 如 何 通过 可 视 化 库 实 
现 数 据 的 可 视 化 ， 以 及 各 种 高 级 主题 ( 例如 信号 处 理 、 
时 间 序 列 、 文 本 数据 分 析 、 机 器 学 习 和 社交 媒体 分 析 


和 HDF5 ) 中 检索 和 存储 数据 ; 
m 通过 开源 库 ( 如 Matplotlib、bokeh 和 plotly ) 实现 数 








; 据 的 可 视 化 ; 

m 了解 各 种 机 器 学 习 方 法 ， 例 如 监督 学 习 、 无 监督 学 
本 书 介 绍 了 众多 的 Python 模块 ， 例 如 Matplotlib 、 习 、 概 率 方法 和 贝 叶 斯 方法 ; 
statsmodels、scikit-learn 和 NLTK。 同 时 ， 本 书 还 介绍 m 了 解 信 号 处 理 和 时 间 序 列 数据 分 析 ; 

了 Python 如 何 与 外 部 环境 ( 例如 R、Fortran、C/C++ 和 n 掌握 图 像 处 理 和 社交 网 络 分 析 技 能 。 
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